世界顶尖多模态大模型开源！又是零一万物，又是李开复

AIGC动态3年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：世界顶尖多模态大模型开源！又是零一万物，又是李开复
关键字：模型,图像,语言,文本,能力
文章来源：量子位
内容字数：3990字

内容摘要：

允中发自凹非寺量子位 | 公众号 QbitAI领跑中英文两大权威榜单，李开复零一万物交出多模态大模型答卷！
距离其首款开源大模型Yi-34B和Yi-6B的发布，仅间隔不到三个月的时间。
模型名为Yi Vision Language（Yi-VL），现已正式面向全球开源。
同属Yi系列，同样具有两个版本：
Yi-VL-34B和Yi-VL-6B。
先来看两个例子，感受一波Yi-VL在图文对话等多元场景中的表现：
Yi-VL对整幅图做了详细分析，不仅说明了指示牌上的内容，甚至连“天花板”都有照顾到。
中文方面，Yi-VL也能清晰有条理地准确表达：
此外，官方也给出了测试结果。
Yi-VL-34B在英文数据集MMMU上准确率41.6%，仅次于准确率55.7%的GPT-4V，超越一系列多模态大模型。
而在中文数据集CMMMU上，Yi-VL-34B准确率36.5%，领先于当前最前沿的开源多模态模型。
Yi-VL长啥样？Yi-VL基于Yi语言模型研发，可以看到基于Yi语言模型的强大文本理解能力，只需对图片进行对齐，就可以得到不错的多模态视觉语言模型——这也是Yi-VL模型的核心亮点之一。
在架构设

原文链接：世界顶尖多模态大模型开源！又是零一万物，又是李开复