AIGC动态欢迎阅读
原标题:世界顶尖多模态大模型开源!又是零一万物,又是李开复
关键字:模型,图像,语言,文本,能力
文章来源:量子位
内容字数:3990字
内容摘要:
允中 发自 凹非寺量子位 | 公众号 QbitAI领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷!
距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔不到三个月的时间。
模型名为Yi Vision Language(Yi-VL),现已正式面向全球开源。
同属Yi系列,同样具有两个版本:
Yi-VL-34B和Yi-VL-6B。
先来看两个例子,感受一波Yi-VL在图文对话等多元场景中的表现:
Yi-VL对整幅图做了详细分析,不仅说明了指示牌上的内容,甚至连“天花板”都有照顾到。
中文方面,Yi-VL也能清晰有条理地准确表达:
此外,官方也给出了测试结果。
Yi-VL-34B在英文数据集MMMU上准确率41.6%,仅次于准确率55.7%的GPT-4V,超越一系列多模态大模型。
而在中文数据集CMMMU上,Yi-VL-34B准确率36.5%,领先于当前最前沿的开源多模态模型。
Yi-VL长啥样?Yi-VL基于Yi语言模型研发,可以看到基于Yi语言模型的强大文本理解能力,只需对图片进行对齐,就可以得到不错的多模态视觉语言模型——这也是Yi-VL模型的核心亮点之一。
在架构设
原文链接:世界顶尖多模态大模型开源!又是零一万物,又是李开复
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...