训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

关键字：视觉,模型,视频,图片,表征

文章来源：机器之心

内容字数：5352字

内容摘要：机器之心专栏机器之心编辑部北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征，该框架使得一个 LLM 能够在图片和视频的混合数据下训练，并同时完成图片和视频理解任务。更重要的是，该框架极大降低了视觉语言模型训练和推理的开销，使得在三天以内即可训练出具有 130 亿参数的通用视觉语言大模型。Chat-UniVi 模型在图片和视频的下游任务中都取得了卓越的性能。所有代码、数据集和模型权重均已开源。论文地址：https://arxiv.org/pdf/2311.08046.pdfGitHub 地址：https://github.com/PKU-YuanGroup/Chat-UniViHuggingface 地址：https://huggingface.co/Chat-UniViDemo 地址：https://huggingface.co…

原文链接：点此阅读原文：训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

联系作者

文章来源：机器之心

作者微信：almosthuman2014

作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 图片 # 模型 # 表征 # 视觉 # 视频

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

AIGC动态欢迎阅读

联系作者

超越同级7B模型！中国团队开源大规模高质量图文数据集ShareGPT4V，大幅提升多模态性能

专访特斯拉工程师杨硕：跟着机器人上天入地、探索地外行星

相关文章

暂无评论

ChatGPT

玩虚拟模特？

训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

AIGC动态欢迎阅读

联系作者

超越同级7B模型！ 中国团队开源大规模高质量图文数据集ShareGPT4V，大幅提升多模态性能

专访特斯拉工程师杨硕：跟着机器人上天入地、探索地外行星

相关文章

暂无评论

ChatGPT

玩虚拟模特？

超越同级7B模型！中国团队开源大规模高质量图文数据集ShareGPT4V，大幅提升多模态性能