今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题

今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题

AIGC动态欢迎阅读

原标题:今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题
关键字:幻觉,模型,数据,报告,反馈
文章来源:夕小瑶科技说
内容字数:7423字

内容摘要:


夕小瑶科技说 原创作者 | 谢年年大模型虽然能力强,但一直饱受“幻觉”问题的困扰,在视觉大模型(LVLMs)中更是如此,生成的文本包含与视觉输入不正确的对象、属性和关系。
比如图中尝试询问模型“小男孩和奶牛正在做什么?”
视觉大模型LLaVA-1.5-13b无法识别男孩正在喂牛。而LLaVA-1.6-34b未能识别衬衫的颜色,并错误判断了男孩和牛之间的空间关系。
对于“详细描述图片内容”的任务,LLaVA-1.5-13b描述图片时错误地提到滑板手旁边还有一个人,且图像右侧边缘附近还有一个滑板。LLaVA-1.6-34b将灰色的岩石识别为临时的坡道,并将滑板描述为黄色和黑色。
今天介绍的这篇文章,是从一个细粒度的角度来识别与缓解LVLMs中的幻觉问题,流程如下图所示:
首先通过GPT4和GPT4V生成一个小型的句子级幻觉标注数据集,然后训练一个幻觉检测模型,再通过该检测模型和重写模型构建偏好数据集,并设计幻觉严重程度感知的DPO训练方式微调视觉大模型,在多个基准上验证了方法的有效性。
论文标题:Detecting and Mitigating Hallucination in Large


原文链接:今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...