探索化微调RFT:PPO驱动的应用

希望大家不要再感慨 SFT 没价值了,也别感慨 RFT 真牛啊,完全追不上 OpenAI 之类的话,感慨无用。

探索强化微调RFT:PPO驱动的新应用革命

原标题:聊聊对化微调RFT的理解及看法:PPO 下的应用范式
章来源:智猩猩GenAI
内容字数:3953字

RFT的理解与应用

在即将到来的智猩猩AI青年讲座中,清华大学在读博士生李镕辉将分享关于《音乐驱动的高质量长序列舞蹈生成》的主题。此外,本将探讨对RFT(Reinforcement Fine-Tuning)的理解,基于OpenAI的直播及相关论进行分析。

1. RFT的定义

RFT可以被理解为在给定prompt的基础上,生成包含cot(chain of thought)的response,并通过一个verifier判断其正确性,从而指导模型进行参数更。与传统的PPO(Proximal Policy Optimization)相比,RFT的关键创在于使用rule-based reward_model作为返回信号。

2. RFT的价值

RFT的主要价值在于其能够针对特定复杂任务创建专家模型。通过定制任务的verifier,RFT可以用更少的数据,甚至是十分之一的数据,轻松超越传统SFT(Supervised Fine-Tuning)的结果。RFT特别适合于法律、保险、医疗等域,这些域通常有明确的“正确答案”。

3. 字节的ReFT

字节的ReFT可以被视为OpenAI RFT在数学任务上的简化实现。ReFT的过程包括通过SFT获得模型,生成带cot的response,并根据答案的正确性进行评分和模型更。尽管ReFT的创看似常,但其在o1之前的发表为其增添了价值。

4. RFT的影响

对于像字节这样的算力大厂,RFT可以帮助其提升服务能力,因此需要紧跟这一技术发展。而对于普通从业者而言,短期内不会有太大变化,仍需进行SFT训练。但长远来看,需关注PPO的重要性,并调整学习方向。

5. 结语

希望大家对SFT的价值有的认识,RFT虽是技术,但并不意味着SFT失去意义。对RFT感兴趣的读者可以通过OpenRLHF代码进行实践,深入理解这一兴技术。


联系作者

章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...