增强模型在多样化场景中的适应能⼒
原标题:推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等
文章来源:量子位
内容字数:5822字
推理时偏好优化(TPO):一种无需重新训练的对齐大语言模型的新方法
随着大语言模型(LLMs)的快速发展,如何确保其输出既符合预期又安全成为关键挑战。传统的偏好对齐方法,例如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),需要在训练过程中更新模型参数,灵活性不足。为了解决这一问题,上海人工智能实验室、香港中文大学等机构联合提出了一种名为推理时偏好优化(TPO)的新方法。
1. TPO的核心思想
TPO的核心在于将模型对齐过程从训练阶段转移到推理阶段。它通过在推理阶段与奖励模型交互,利用可解释的文本反馈迭代优化模型输出,从而实现即时模型对齐,而无需重新训练模型参数。这使得TPO能够灵活适应不断变化的数据和需求。
2. TPO的优势
TPO具有以下几个显著优势:
- 推理时对齐,无需训练:TPO在推理阶段与奖励模型交互,无需更新模型参数,节省了大量的计算资源和时间。
- 基于文本反馈:TPO使用可解释的文本反馈,而非纯数值梯度,让模型能够“理解”并“执行”文本评价,提高了对齐的透明度。
- 优于传统方法:实验结果表明,TPO能够有效提升未对齐模型的表现,甚至超越经过训练的对齐模型。
- 灵活适应性:TPO能够灵活应对不断变化的数据和需求,具有较强的适应性,并在资源有限的环境下高效运行。
3. TPO的工作机制
TPO借鉴了标准梯度优化方法的思路,包含四个关键组件:变量定义、损失计算、梯度计算和变量优化。它使用奖励模型作为人类偏好的代理,提供生成回复质量的反馈。通过迭代调整输出,逐步使其更符合奖励模型的偏好。具体过程包括:初始化、文本损失函数定义、文本梯度计算和迭代优化四个步骤。TPO通过将奖励模型的信号转化为“文本损失”和“文本梯度”,指导模型生成更符合预期的回复。
4. 实验结果与分析
研究人员在多个基准测试中评估了TPO的性能。结果表明,TPO显著提升了未对齐模型Llama-3.1-70B-SFT的性能,使其达到了与已对齐模型Llama-3.1-70B-Instruct相当甚至更好的水平。同时,TPO也进一步增强了已对齐模型的性能。此外,TPO还展现出良好的推理稳定性和计算效率。
5. 结论与未来展望
TPO提供了一种轻量、高效且可解释的大语言模型偏好对齐方案。它无需重新训练,即可实现模型与人类偏好的对齐,并具有良好的灵活性和适应性。未来研究可以集中在优化文本交互方法、探索更鲁棒的奖励模型以及提升较弱模型在TPO中的表现等方向。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破