标签:PPO

DPO与PPO:揭开大语言模型对齐的未来之谜

作者认为DPO不能干掉PPO,至少现在还不能。
阅读原文

探索强化微调RFT:PPO驱动的新应用

希望大家不要再感慨 SFT 没价值了,也别感慨 RFT 真牛啊,完全追不上 OpenAI 之类的话,感慨无用。
阅读原文