零成本突破多模态大模型瓶颈！多所美国顶尖高校华人团队，联合推出自增强技术CSR

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：零成本突破多模态大模型瓶颈！多所美国顶尖高校华人团队，联合推出自增强技术CSR
关键字：模型,数据,样本,自我,概率
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRST
【新智元导读】现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题，传统偏好学习方法依赖可能不适配的外源数据，存在成本和质量问题。Calibrated Self-Rewarding（CSR）框架通过自我增强学习，利用模型自身输出构造更可靠的偏好数据，结合视觉约束提高学习效率和准确性。多模态大模型展现出了多种多样的能力，这些能力都通过SFT和预训练从庞大的训练数据集中学习。
但是模态之间的简单对齐可能会使得模型存在幻觉，细粒度图像感知能力差等各种问题。
已有的多模态大模型对齐方案一般采用DPO，POVID等偏好优化方法，或是蒸馏 GPT-4等昂贵闭源模型的方式来提升模型能力。
这些方法大多需要外源模型数据，这些数据构造存在很多问题，一是需要昂贵的价格，二是缺乏质量和多样性的保证。
再者说，这真的适合需要提升模型本身的分布偏好吗？
在Calibrated Self-Rewarding Vision Language Models文中，通过模型自身输出概率证明了，外来模型构造的偏好数据可能不适合用于模型的偏好学习，相较于模型自身的response，外源模

原文链接：零成本突破多模态大模型瓶颈！多所美国顶尖高校华人团队，联合推出自增强技术CSR