英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升
关键字：模型,标签,文本,性能,视觉
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码基准测试中，平均准确率提高了4.3个百分点。文本大模型经过多年的发展，逐渐发展成了统一的纯解码器Transformer架构。
反观现有的多模态大模型架构仍然处于混乱状态，开源模型在选择LLM主干、视觉编码器以及训练数据方面都存在差异，性能优异的闭源多模态大模型也没有公布相关信息，无法直接进行模型对比和研究。
并且，不同模型在处理高分辨率图像输入时的设计（如动态高分辨率）虽然可以提高了与OCR相关的任务（例如，OCRBench）的性能，但与低分辨率版本模型相比，在推理相关任务（例如，MMMU）上的准确率却会下降。
此外，虽然开源的多模态大模型在视觉-语言任务上取得了非常亮眼的基准测试结果，但在纯文本任务上的性能却有显著下降，与领先的闭源模型（如GPT-4o）的表现并不一致。
为了改变这一现状，英伟达的研究团队最近宣布推出NVLM 1.0，在视觉-语言任务上取得了最先进的成果，能够与最强大

原文链接：英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升