AIGC动态欢迎阅读
原标题:马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
关键字:视觉,模型,特征,能力,研究人员
文章来源:新智元
内容字数:6949字
内容摘要:
新智元报道编辑:润 好困
【新智元导读】来自纽约大学和UC伯克利的研究团队成功捕捉到了多模态大模型在视觉理解方面存在的重大缺陷。针对这个问题,他们进一步提出了一个将DINOv2特征与CLIP特征结合的方法,有效地提升了多模态大模型的视觉功能。Sam Altman在各种场合都提到,大语言模型的多模态能力,是未来AI技术能够造福人类的最亟待突破的领域。
那么现在在多模态大模型的视觉功能能否达到与语言功能匹配的水平?
当前多模态模型取得的进步很大程度上归功于大语言模型(LLM)的推理能力。但在视觉方面,模型往往只基于实例级别的对比语言-图像预训练(CLIP)。
最近,来自纽约大学和UC伯克利的团队研究表明,多模态大语言模型(MLLM)在视觉处理方面仍存在普遍性的缺陷。
其中,团队成员堪称「豪华」,除了领队谢赛宁外,共同参与还有马毅和LeCun两位大佬。
论文地址:https://arxiv.org/abs/2401.06209
开源项目:https://github.com/tsb0601/MMVP
在一些特殊场景之下,很多MLLM对于图像内容识别能力甚至不如随机瞎猜。
在很多人类能够轻易
原文链接:马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...