2024年大模型Alignment偏好优化技术：从PPO, SPO到MCTS-DPO

AIGC动态欢迎阅读

原标题：2024年大模型Alignment偏好优化技术：从PPO, SPO到MCTS-DPO
关键字：模型,数据,方法,函数,侵权
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

文章转载自公众号：极市平台，本文只做学术/技术分享，如有侵权，联系删文。
导读本文讨论了2024年大模型Alignment偏好优化技术的发展，包括从PPO、SPO到MCTS-DPO的各种技术，涉及模型安全和Agents应用，以及如何通过不同的优化方法提高大型语言模型与人类价值观和意图的一致性。文章还介绍了一些最新的优化技术，如KTO、ORPO、SimPO、TDPO、Step-DPO、DMPO和SPO，以及它们在提高模型性能方面的应用和效果。今年做过一段时间的 alignment 工作，做得有点不开心，各种 social 的原因，觉得自己的发挥受到了限制，最近又闲下来了，所以看了一些相关的论文，但是对这个方向还是挺感兴趣的，这里来分享一下我对 alignment 的一些理解。
对齐一般使用的是 chat 或者 instruct 模型，而不是 base 模型，自从 OpenAI 利用 RLHF 做人类偏好对齐后，开源社区就涌现了一些列的对齐技术。RL 技术中，典型的是 PPO（缺点是训练不太稳定，效率低），如果数据集是人类标注的就是 RLHF，如果是 GPT，PaLM2 等模型标注的，就是

原文链接：2024年大模型Alignment偏好优化技术：从PPO, SPO到MCTS-DPO