训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解

AIGC动态10个月前发布 机器之心
17 0 0

训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解

AIGC动态欢迎阅读

原标题:训练130亿大模型仅3天,北大提出Chat-UniVi统一图片视频理解

关键字:视觉,模型,视频,图片,表征

文章来源:机器之心

内容字数:5352字

内容摘要:机器之心专栏机器之心编辑部北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征,该框架使得一个 LLM 能够在图片和视频的混合数据下训练,并同时完成图片和视频理解任务。更重要的是,该框架极大降低了视觉语言模型训练和推理的开销,使得在三天以内即可训练出具有 130 亿参数的通用视觉语言大模型。Chat-UniVi 模型在图片和视频的下游任务中都取得了卓越的性能。所有代码、数据集和模型权重均已开源。论文地址:https://arxiv.org/pdf/2311.08046.pdfGitHub 地址:https://github.com/PKU-YuanGroup/Chat-UniViHuggingface 地址:https://huggingface.co/Chat-UniViDemo 地址:https://huggingface.co…

原文链接:点此阅读原文:训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...