马毅LeCun谢赛宁曝出多模态LLM重大缺陷！开创性研究显著增强视觉理解能力

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：马毅LeCun谢赛宁曝出多模态LLM重大缺陷！开创性研究显著增强视觉理解能力
关键字：视觉,模型,特征,能力,研究人员
文章来源：新智元
内容字数：6949字

内容摘要：

新智元报道编辑：润好困
【新智元导读】来自纽约大学和UC伯克利的研究团队成功捕捉到了多模态大模型在视觉理解方面存在的重大缺陷。针对这个问题，他们进一步提出了一个将DINOv2特征与CLIP特征结合的方法，有效地提升了多模态大模型的视觉功能。Sam Altman在各种场合都提到，大语言模型的多模态能力，是未来AI技术能够造福人类的最亟待突破的领域。
那么现在在多模态大模型的视觉功能能否达到与语言功能匹配的水平？
当前多模态模型取得的进步很大程度上归功于大语言模型（LLM）的推理能力。但在视觉方面，模型往往只基于实例级别的对比语言-图像预训练（CLIP）。
最近，来自纽约大学和UC伯克利的团队研究表明，多模态大语言模型（MLLM）在视觉处理方面仍存在普遍性的缺陷。
其中，团队成员堪称「豪华」，除了领队谢赛宁外，共同参与还有马毅和LeCun两位大佬。
论文地址：https://arxiv.org/abs/2401.06209
开源项目：https://github.com/tsb0601/MMVP
在一些特殊场景之下，很多MLLM对于图像内容识别能力甚至不如随机瞎猜。
在很多人类能够轻易

原文链接：马毅LeCun谢赛宁曝出多模态LLM重大缺陷！开创性研究显著增强视觉理解能力