原标题:DPO-Shift:一个参数可控改变DPO分布,缓解似然偏移
文章来源:机器之心
内容字数:2426字
DPO-Shift:缓解大语言模型训练中的似然位移问题
本文介绍了华南理工大学研究生杨晞亮的研究成果——DPO-Shift方法,该方法旨在解决直接偏好优化(DPO)训练大语言模型时出现的似然位移问题。DPO作为一种高效的离线算法,在训练过程中,选定响应和拒绝响应的概率往往同步下降,导致模型对那些既未被明确偏好也未被坚决拒绝的响应赋予意外升高的概率,这就是似然位移。
似然位移问题及成因分析
研究发现,似然位移的出现可能与训练数据集中的选定响应和拒绝响应在内容层面存在较高相似度有关。这种相似性使得模型难以区分两者,从而导致概率分布的异常变化。
DPO-Shift方法
为了解决这个问题,DPO-Shift方法提出了一种创新策略:在Bradley-Terry模型中,对拒绝响应的奖励添加一个参数函数。该函数的作用是削弱语义相似响应间的对抗性,从而缓解似然位移问题。 通过调整参数函数,可以控制模型在提升选定响应概率和维持奖励差距之间的权衡。
理论分析与实验结果
文章对选定响应的对数似然和奖励差距这两个关键指标函数进行了理论分析,结果表明DPO-Shift方法确实存在这种权衡关系,并且该权衡由引入的参数函数控制,同时还依赖于初始模型性能和数据质量。一系列实验结果验证了DPO-Shift方法的有效性,它能够显著缓解似然位移问题,并实现响应概率和奖励准确性之间的灵活、可控的权衡。
下游任务性能提升
在MT-Bench和胜率实验等下游任务测试中,DPO-Shift方法展现出优于DPO方法的性能,同时生成的文本内容也更简洁、更高质量。
总结
DPO-Shift方法通过在Bradley-Terry模型中引入参数函数,有效地缓解了DPO训练中的似然位移问题,并在下游任务中取得了显著的性能提升。这项研究为改进大语言模型的训练方法提供了新的思路,也为未来研究提供了重要的参考价值。
总而言之,DPO-Shift方法为解决大语言模型训练中的似然位移问题提供了一种有效且可控的解决方案,其理论分析和实验结果都充分证明了其优越性。该方法的提出,对于提升大语言模型的性能和生成内容的质量具有重要的意义。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台