从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」
关键字：模型,函数,建模,算法,表示
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RLHF）来管理这些模型，成效显著，标志着向更加人性化 AI 迈出的关键一步。
尽管 RLHF 取得了巨大成功，但是在训练过程中 RLHF 非常消耗资源。因此，近段时间学者们在 RLHF 奠定的坚实基础上，继续探索更为简单且高效的策略优化路径，催生了直接偏好优化（DPO）的诞生。DPO 通过数学推理得到奖励函数与最优策略之间的直接映射，消除了奖励模型的训练过程，直接在偏好数据上优化策略模型，实现了从「反馈到策略」的直观飞跃。这不仅减少了复杂度，还增强了算法的稳健性，迅速成为业界的新宠。
然而

原文链接：从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」