ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了
关键字：模型,数据,图像,偏见,样本
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com
本文第一作者皮仁杰是香港科技大学三年级博士生，师从张潼教授和周晓方教授。此前获得香港大学计算机工程学士学位。研究兴趣为多模态大语言模型，以数据为中心的人工智能，以及自动化机器学习。
随着大型语言模型（LLMs）的进步，多模态大型语言模型（MLLMs）迅速发展。它们使用预训练的视觉编码器处理图像，并将图像与文本信息一同作为 Token 嵌入输入至 LLMs，从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。
尽管 MLLMs 具有出色的图文理解能力，但它们仍然会出现错误或幻觉，生成与输入图像不相符的相应，例如回答不存在的对象或错误识别属性等。我们认为多模态大模型在不同训练阶段的数据量和训练时间的不平衡是产生

原文链接：ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了