零一万物发布Yi-VL多模态语言模型并开源，测评仅次于GPT-4V

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：零一万物发布Yi-VL多模态语言模型并开源，测评仅次于GPT-4V
关键字：模型,解读,图像,语言,数据
文章来源：AI前线
内容字数：4498字

内容摘要：

作者 | 褚杏娟
1 月 22 日，零一万物发布 Yi Vision Language（Yi-VL）多模态语言大模型，并正式面向全球开源。Yi-VL 模型基于 Yi 语言模型开发，包括 Yi-VL-34B 和 Yi-VL-6B 两个版本。测评：仅次于 GPT-4V根据零一万物消息，Yi-VL 模型在英文数据集 MMMU 和中文数据集 CMMMU 上取得了领先成绩，在处理复杂跨学科任务上有很好表现。
MMMU（全名 Massive Multi-discipline Multi-modal Understanding & Reasoning 大规模多学科多模态理解和推理）数据集包含了 11500 个来自六大核心学科（艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程）的问题，涉及高度异构图像类型和交织文本图像信息，对模型的高级知觉和推理能力提出了极高要求。
Yi-VL-34B 在该测试集上以 41.6% 的准确率超越了一系列多模态大模型，仅次于 GPT-4V（55.7%）。来源：https://mmmu-benchmark.github.io
同样，在针对中文场景打造的 CM

原文链接：零一万物发布Yi-VL多模态语言模型并开源，测评仅次于GPT-4V