细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

有效缓解 LVLMs 中的幻觉现象

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

原标题:细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐
文章来源:机器之心
内容字数:5633字

淘天集团提出Token Preference Optimization (TPO)方法缓解视觉大模型幻觉

本文介绍了淘天集团未来生活实验室团队在缓解大型视觉语言模型(LVLMs)幻觉问题上取得的最新进展。团队提出了一种创新的令牌级偏好对齐方法——Token Preference Optimization (TPO),该方法通过自校准的视觉锚定奖励信号,有效提升了模型的优化效率和自动化水平,并在多个基准测试中取得了显著效果。

1. 现有方法的不足与TPO的优势

现有的直接偏好优化(DPO)方法在缓解LVLMs幻觉方面取得了进展,但仍存在两个主要问题:缺乏高效且可扩展的令牌级奖励信号,以及在训练过程中忽略了视觉锚定tokens的重要性。TPO方法有效解决了这些问题。它能够自动识别视觉锚定tokens,无需人工细粒度标注,并自动分配反映token对图像信息依赖程度的令牌级奖励。

2. TPO方法详解

TPO方法的核心在于自校准的视觉锚定奖励生成机制。该机制通过比较图像加噪前后每个生成token的概率差异来衡量其视觉锚定程度。通过引入一个自校准过程,为正负样本分配相应的奖励,并优化所有视觉锚定tokens的视觉信息关联度。最终,TPO将视觉锚定奖励整合到DPO框架中,形成了一个新的优化目标。

3. 实验结果与分析

实验结果表明,TPO在多个幻觉评测集和通用评测集上均显著优于现有的偏好对齐方法,尤其在处理基于人工编辑的反事实图片问答(hard问题)时效果更为突出。消融实验验证了图像加噪步数、奖励自校准参数以及奖励分配方式对TPO性能的影响。Attention分析显示,TPO训练可以提升模型回复对图像信息的关联程度,从而缓解幻觉问题。奖励自校准分析则证明了TPO在训练过程中不断自我校准奖励,让模型逐渐关注更多图像信息。

4. 结论与未来展望

淘天集团未来生活实验室团队提出的TPO方法为缓解LVLMs幻觉问题提供了一种有效途径。该方法的优势在于其自动化、高效性和无需人工标注的特点。未来,团队将继续深耕强化学习领域,为解决多模态幻觉问题贡献力量。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止