探索强化微调RFT：PPO驱动的新应用

希望大家不要再感慨 SFT 没价值了，也别感慨 RFT 真牛啊，完全追不上 OpenAI 之类的话，感慨无用。

探索强化微调RFT：PPO驱动的新应用革命

原标题：聊聊对强化微调RFT的理解及看法：PPO 下的新应用范式
文章来源：智猩猩GenAI
内容字数：3953字

RFT的理解与应用

在即将到来的智猩猩AI新青年讲座中，清华大学在读博士生李镕辉将分享关于《音乐驱动的高质量长序列舞蹈生成》的主题。此外，本文将探讨对RFT（Reinforcement Fine-Tuning）的理解，基于OpenAI的直播及相关论文进行分析。

1. RFT的定义

RFT可以被理解为在给定prompt的基础上，生成包含cot（chain of thought）的response，并通过一个verifier判断其正确性，从而指导模型进行参数更新。与传统的PPO（Proximal Policy Optimization）相比，RFT的关键创新在于使用rule-based reward_model作为返回信号。

2. RFT的价值

RFT的主要价值在于其能够针对特定复杂任务创建专家模型。通过定制任务的verifier，RFT可以用更少的数据，甚至是十分之一的数据，轻松超越传统SFT（Supervised Fine-Tuning）的结果。RFT特别适合于法律、保险、医疗等领域，这些领域通常有明确的“正确答案”。

3. 字节的ReFT

字节的ReFT可以被视为OpenAI RFT在数学任务上的简化实现。ReFT的过程包括通过SFT获得模型，生成带cot的response，并根据答案的正确性进行评分和模型更新。尽管ReFT的创新看似平常，但其在o1之前的发表为其增添了价值。

4. RFT的影响

对于像字节这样的算力大厂，RFT可以帮助其提升服务能力，因此需要紧跟这一技术发展。而对于普通从业者而言，短期内不会有太大变化，仍需进行SFT训练。但长远来看，需关注PPO的重要性，并调整学习方向。

5. 结语

希望大家对SFT的价值有新的认识，RFT虽是新技术，但并不意味着SFT失去意义。对RFT感兴趣的读者可以通过OpenRLHF代码进行实践，深入理解这一新兴技术。

联系作者

文章来源：智猩猩GenAI
作者微信：
作者简介：智猩猩旗下公众号之一，深入关注大模型与AI智能体，及时搜罗生成式AI技术产品。

阅读原文

# AIGC动态 # PPO # RFT # 人工智能 # 应用范式 # 强化微调

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

探索强化微调RFT：PPO驱动的新应用

希望大家不要再感慨 SFT 没价值了，也别感慨 RFT 真牛啊，完全追不上 OpenAI 之类的话，感慨无用。

RFT的理解与应用

1. RFT的定义

2. RFT的价值

3. 字节的ReFT

4. RFT的影响

5. 结语

联系作者

未来互联网的变革：Perplexity首席执行官对人工智能与搜索的洞察

《黑神话：悟空》无缘年度最佳，游戏奥斯卡被骂上热搜

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点