OpenAI o1是AGI下半场的开始,强化学习将成为新的 Scaling Law
AIGC动态欢迎阅读
原标题:OpenAI o1是AGI下半场的开始,强化学习将成为新的 Scaling Law
关键字:模型,公司,能力,机器人,领域
文章来源:Founder Park
内容字数:0字
内容摘要:
随着 OpenAI o1 模型的发布,LLM 正式进入 self-play RL 范式时代。
Self-play RL 似乎在一夜之间,成为了新的 scaling law。
OpenAI 不是唯一重视 RL 和 Self-Play 的公司,在 o1 之前,Anthropic Claude 3.5 Sonnet 就被视为一个标志性里程碑,Claude 3.5 Sonnet 代码能力显著提升的背后其实是 RL 在起作用;Google 也已经围绕 LLM 做 reward model 展开了多个项目的研究;前 OpenAI 的核心人物 Ilya 创立的新项目 SSI 也和 RL 相关。o1 的发布势必会加速新范式共识的形成,将 RL 从头部 AI Labs 的尝试向全行业扩散。
o1 只是 AGI 下半场的开始,接下来 Anthropic Claude 3.5 系列新模型的发布也同样值得期待,Claude 3.5 和 o1 的表现会是 RL 进程是否顺利的风向标。
本期内容是海外独角兽「全球大模型季报」的第四集,录制于 2 周前,拾象科技 CEO 李广密和商业作者张小珺围绕 AGI 发展路径
原文链接:OpenAI o1是AGI下半场的开始,强化学习将成为新的 Scaling Law
联系作者
文章来源:Founder Park
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...