有效缓解 LVLMs 中的幻觉现象
淘天集团提出Token Preference Optimization (TPO)方法缓解视觉大模型幻觉
本文介绍了淘天集团未来生活实验室团队在缓解大型视觉语言模型(LVLMs)幻觉问题上取得的最新进展。团队提出了一种创新的令牌级偏好对齐方法——Token Preference Optimization (TPO),该方法通过自校准的视觉锚定奖励信号,有效提升了模型的优化效率和自动化水平,并在多个基准测试中取得了显著效果。
1. 现有方法的不足与TPO的优势
现有的直接偏好优化(DPO)方法在缓解LVLMs幻觉方面取得了进展,但仍存在两个主要问题:缺乏高效且可扩展的令牌级奖励信号,以及在训练过程中忽略了视觉锚定tokens的重要性。TPO方法有效解决了这些问题。它能够自动识别视觉锚定tokens,无需人工细粒度标注,并自动分配反映token对图像信息依赖程度的令牌级奖励。
2. TPO方法详解
TPO方法的核心在于自校准的视觉锚定奖励生成机制。该机制通过比较图像加噪前后每个生成token的概率差异来衡量其视觉锚定程度。通过引入一个自校准过程,为正负样本分配相应的奖励,并优化所有视觉锚定tokens的视觉信息关联度。最终,TPO将视觉锚定奖励整合到DPO框架中,形成了一个新的优化目标。
3. 实验结果与分析
实验结果表明,TPO在多个幻觉评测集和通用评测集上均显著优于现有的偏好对齐方法,尤其在处理基于人工编辑的反事实图片问答(hard问题)时效果更为突出。消融实验验证了图像加噪步数、奖励自校准参数以及奖励分配方式对TPO性能的影响。Attention分析显示,TPO训练可以提升模型回复对图像信息的关联程度,从而缓解幻觉问题。奖励自校准分析则证明了TPO在训练过程中不断自我校准奖励,让模型逐渐关注更多图像信息。
4. 结论与未来展望
淘天集团未来生活实验室团队提出的TPO方法为缓解LVLMs幻觉问题提供了一种有效途径。该方法的优势在于其自动化、高效性和无需人工标注的特点。未来,团队将继续深耕强化学习领域,为解决多模态幻觉问题贡献力量。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台