RL 是 LLM 的新范式

RL 是 LLM 的新范式

AIGC动态欢迎阅读

原标题:RL 是 LLM 的新范式
关键字:模型,数据,人类,算法,指令
文章来源:智猩猩GenAI
内容字数:0字

内容摘要:


AGI 正在迎来新范式,RL 是 LLM 的秘密武器。最近几个月,我们能明显感受到头部 AI labs 在形成一些新共识:post training 的重要程度在提高,需要的计算资源可能在未来超过 pre training;RL 成为提高模型 reasoning 能力的重要范式,需要大量的探索和突破。今天我们讨论的 Agent 也是从强化学习中最早被定义的。曾在 OpenAI 负责 post-traning 的John Schulman是 RL 的拥趸和布道者,他认为,post-training 是模型变得越来越聪明的重要原因,而 RLHF 是这其中最重要的技术 tricks。John Schulman 对 RLHF 的信仰来自他在 OpenAI 的亲身实践:GPT-4 的 Elo 分数之所以能比第一代 GPT 高出 100 分也和 post-traning 的提升相关。
Scaling law 让 AI 更聪明,而 RL 让 AI 更有用。我们相信,RL 会在 LLM 发展中扮演越来越重要的作用。
为了帮助大家更全面理解 RL,边塞科技的创始人及 CEO 吴翼将分享 RL 的基本原理


原文链接:RL 是 LLM 的新范式

联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...