ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘
关键字：模型,算法,团队,代码,工作
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com吴翼，清华大学交叉信息院助理教授，曾任 OpenAI 全职研究员，研究领域为强化学习，大模型对齐，人机交互，机器人学习等。2019 年在美国加州大学伯克利分校获得博士学位，师从 Stuart Russell 教授；2014 年本科毕业于清华大学交叉信息院（姚班）。其代表作包括：NIPS2016 最佳论文，Value Iteration Network；多智能体深度强化学习领域最高引用论文，MADDPG 算法；OpenAI hide-and-seek 项目等。
如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑

原文链接：ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘