今日arXiv最热大模型论文：浙江大学：如何减轻视觉大模型中的幻觉问题

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日arXiv最热大模型论文：浙江大学：如何减轻视觉大模型中的幻觉问题
关键字：幻觉,模型,数据,报告,反馈
文章来源：夕小瑶科技说
内容字数：7423字

内容摘要：

夕小瑶科技说原创作者 | 谢年年大模型虽然能力强，但一直饱受“幻觉”问题的困扰，在视觉大模型（LVLMs）中更是如此，生成的文本包含与视觉输入不正确的对象、属性和关系。
比如图中尝试询问模型“小男孩和奶牛正在做什么？”
视觉大模型LLaVA-1.5-13b无法识别男孩正在喂牛。而LLaVA-1.6-34b未能识别衬衫的颜色，并错误判断了男孩和牛之间的空间关系。
对于“详细描述图片内容”的任务，LLaVA-1.5-13b描述图片时错误地提到滑板手旁边还有一个人，且图像右侧边缘附近还有一个滑板。LLaVA-1.6-34b将灰色的岩石识别为临时的坡道，并将滑板描述为黄色和黑色。
今天介绍的这篇文章，是从一个细粒度的角度来识别与缓解LVLMs中的幻觉问题，流程如下图所示：
首先通过GPT4和GPT4V生成一个小型的句子级幻觉标注数据集，然后训练一个幻觉检测模型，再通过该检测模型和重写模型构建偏好数据集，并设计幻觉严重程度感知的DPO训练方式微调视觉大模型，在多个基准上验证了方法的有效性。
论文标题:Detecting and Mitigating Hallucination in Large

原文链接：今日arXiv最热大模型论文：浙江大学：如何减轻视觉大模型中的幻觉问题

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文