构建探索驱动的人类反馈强化学习对齐框架。
原标题:ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驱动的对齐方法,8B越级胜70B
文章来源:机器之心
内容字数:7771字
中国电信联合清华等高校提出新型大模型对齐方法COPO
本文总结了中国电信人工智能研究院(TeleAI)联合清华大学等机构提出的新型探索驱动的大模型对齐方法COPO (Count-based Online Preference Optimization) 的核心要点。该方法旨在解决现有大型语言模型(LLM)对齐框架受限于偏好数据集覆盖范围的问题,提升LLM的性能和安全性。
1. 研究背景及动机
大型语言模型(LLM)在多种语言任务中表现出色,但在与人类价值观和意图对齐方面仍面临挑战。现有的基于人类反馈强化学习(RLHF)的框架依赖于预先收集的偏好数据集,其性能受限于数据集的覆盖范围。收集高质量的偏好数据集成本高昂,且难以覆盖所有可能的提示和回复。因此,研究人员希望赋予LLM自主探索语言空间的能力,突破离线数据集的限制。
2. COPO方法的核心思想
COPO方法将人类的探索本能融入到LLM的后训练中,通过在线RLHF框架引导模型主动探索尚未充分理解的知识。它结合了基于计数的探索(Count-based Exploration)和直接偏好优化(DPO)框架,利用轻量级的伪计数模块来平衡探索和偏好优化。COPO在理论上证明了其在线学习范式能够将总后悔值限制在O(√T)的量级内。
3. 理论框架
COPO的理论框架基于大模型奖励的线性假设,将奖励函数简化为参数向量和特征向量的内积形式。通过极大似然估计来估计奖励模型的参数,并提供明确的误差界限和置信集合。在参数集合中使用乐观的期望值函数,实现了强化学习探索中的乐观原则。最终的优化项包含两部分:一部分对应经典的两阶段RLHF方法,另一部分为新引入的置信区间上界(UCB)项,用于鼓励模型探索尚未充分探索的语言空间。
4. 算法设计
COPO算法结合了DPO算法框架,将乐观探索的UCB项转化为更容易求解的目标。在有限状态动作空间的假设下,乐观探索项可以表示为基于状态-动作计数的学习目标。COPO使用Coin Flipping Network (CFN)来高效实现伪计数,CFN通过一个简单的回归问题来预测基于计数的探索奖励,无需复杂的密度估计。
5. 实验结果
实验结果表明,COPO算法在AlpacaEval 2.0和MT-Bench基准测试中表现优异。与离线DPO算法相比,COPO显著提升了Zephyr-7B和Llama3-8B模型的LC胜率。COPO也超越了其他在线对齐方法,在指令遵循和泛化能力方面取得了显著提升。
6. 结论
COPO方法通过赋予LLM自主探索能力,有效解决了现有对齐框架受限于数据集覆盖范围的问题,为大模型的多轮交互探索中的能力持续提升提供了重要技术支撑。该研究成果为“基于连接与交互的智能涌现”提供了重要技术支撑,具有重要的学术意义和应用价值。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台