细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

有效缓解 LVLMs 中的幻觉现象

原标题：细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐
文章来源：机器之心
内容字数：5633字

淘天集团提出Token Preference Optimization (TPO)方法缓解视觉大模型幻觉

本文介绍了淘天集团未来生活实验室团队在缓解大型视觉语言模型(LVLMs)幻觉问题上取得的最新进展。团队提出了一种创新的令牌级偏好对齐方法——Token Preference Optimization (TPO)，该方法通过自校准的视觉锚定奖励信号，有效提升了模型的优化效率和自动化水平，并在多个基准测试中取得了显著效果。

1. 现有方法的不足与TPO的优势

现有的直接偏好优化(DPO)方法在缓解LVLMs幻觉方面取得了进展，但仍存在两个主要问题：缺乏高效且可扩展的令牌级奖励信号，以及在训练过程中忽略了视觉锚定tokens的重要性。TPO方法有效解决了这些问题。它能够自动识别视觉锚定tokens，无需人工细粒度标注，并自动分配反映token对图像信息依赖程度的令牌级奖励。

2. TPO方法详解

TPO方法的核心在于自校准的视觉锚定奖励生成机制。该机制通过比较图像加噪前后每个生成token的概率差异来衡量其视觉锚定程度。通过引入一个自校准过程，为正负样本分配相应的奖励，并优化所有视觉锚定tokens的视觉信息关联度。最终，TPO将视觉锚定奖励整合到DPO框架中，形成了一个新的优化目标。

3. 实验结果与分析

实验结果表明，TPO在多个幻觉评测集和通用评测集上均显著优于现有的偏好对齐方法，尤其在处理基于人工编辑的反事实图片问答（hard问题）时效果更为突出。消融实验验证了图像加噪步数、奖励自校准参数以及奖励分配方式对TPO性能的影响。Attention分析显示，TPO训练可以提升模型回复对图像信息的关联程度，从而缓解幻觉问题。奖励自校准分析则证明了TPO在训练过程中不断自我校准奖励，让模型逐渐关注更多图像信息。

4. 结论与未来展望

淘天集团未来生活实验室团队提出的TPO方法为缓解LVLMs幻觉问题提供了一种有效途径。该方法的优势在于其自动化、高效性和无需人工标注的特点。未来，团队将继续深耕强化学习领域，为解决多模态幻觉问题贡献力量。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 无需仔细标注 # 淘天 # 细粒度对齐 # 自我校准多模态对齐 # 视觉锚定奖励

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

细粒度对齐无需仔细标注了！淘天提出视觉锚定奖励，自我校准实现多模态对齐

有效缓解 LVLMs 中的幻觉现象

淘天集团提出Token Preference Optimization (TPO)方法缓解视觉大模型幻觉

1. 现有方法的不足与TPO的优势

2. TPO方法详解

3. 实验结果与分析

4. 结论与未来展望

联系作者

突发：TikTok 宣布其服务在美国将临时中断

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点