MM-RLHF,数据算法模型Pipline全开源
原标题:多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈
文章来源:量子位
内容字数:8610字
快手、中科院、南大合作:MM-RLHF,多模态大模型对齐的“游戏规则改变者”
近年来,多模态大语言模型(MLLMs)发展迅速,但其与人类偏好的对齐度仍有待提高。现有研究多集中于特定领域,例如减少幻觉,对MLLMs整体能力提升的影响尚不明确。快手、中科院和南大合作团队提出的MM-RLHF框架,旨在从数据集、奖励模型和训练算法三个层面推动MLLM对齐发展,取得了显著成果,并在Twitter上引发热议,被誉为多模态对齐领域的“游戏规则改变者”。
1. MM-RLHF 的主要贡献
MM-RLHF 的主要贡献体现在以下几个方面:
- 高质量偏好数据集:构建了一个包含120k个精细标注的偏好比较对数据集,由50名标注人员和8名专家耗时两个月完成。该数据集在规模、多样性、标注粒度和质量方面均有显著提升,包含有用性、真实性和伦理性三个维度的打分,以及排序和原因描述等信息。
- 基于批评的奖励模型:提出了一种创新的基于批评的奖励模型 (Critique-Based Reward Model),该模型先对模型输出进行批评,再进行评分,相比传统的标量奖励机制,具有更好的可解释性和信息量。一个7B参数的模型,其性能就超越了现有的72B参数的MLLM。
- 动态奖励缩放:提出动态奖励缩放 (Dynamic Reward Scaling) 方法,根据奖励信号调整每个样本的损失权重,提高了高质量比较对的使用效率。
- 全面评估:在10个维度、27个基准上进行了严格评估,其中包括自建的安全性基准 MM-RLHF-SafeBench,结果显示在各个方面均取得了显著且一致的性能提升。例如,LLaVA-ov-7B模型的会话能力平均提升了19.5%,安全性平均提升了60%。
2. 数据集构建与标注
该数据集的数据来源广泛,包括LLaVA-OV、VLfeedback等,涵盖图像和视频数据。数据过滤和模型响应生成采用多选题、长文本等类别均匀采样和knn聚类策略,保证数据的多样性。标注包含有用性、真实性和伦理性三个维度,并要求标注人员提供打分依据和排名依据,保证标注质量。
3. 奖励模型及训练算法
传统的奖励模型难以充分利用人类注释信息,MM-RLHF提出的基于批评的奖励模型则弥补了这一缺陷。通过GPT-4o增强人工注释,提高批评质量。在训练过程中,批评的生成与奖励头的训练同时进行,采用teacher-forcing策略。动态奖励缩放 (MM-DPO) 方法则有效利用高质量偏好数据,优先利用高置信度的样本对。
4. 实验结果与分析
实验结果表明,MM-RLHF在各个评估维度上都取得了显著的性能提升,尤其在会话能力和安全性方面提升最为明显。不同模型在对齐过程中表现出不同的性能趋势,需要根据具体模型进行超参数定制化调整。此外,研究还发现小规模MLLMs(参数少于7B)通过自我提升实现全面性能提升面临挑战,这主要由于模型容量限制和奖励信号质量的局限性。
5. 未来研究方向
未来研究将重点关注利用数据集的丰富注释粒度信息,结合先进的优化技术和高分辨率数据,并使用半自动化策略高效地扩展数据集,以进一步提升MLLM的对齐水平,并为更广泛的多模态学习框架奠定基础。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破