Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

AIGC动态6小时前发布 量子位
0 0 0

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

AIGC动态欢迎阅读

原标题:Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式
关键字:报告,模型,团队,过程,代码
文章来源:量子位
内容字数:0字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAI复刻OpenAI o1推理大模型,开源界传来最新进展:
LLaMA版o1项目刚刚发布,来自上海AI Lab团队。
简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。
在2024年6月,o1发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力,积累了一些关注。
这次最新开源代码,也在开发者社区引起热议。
OpenAI o1系列发布后,团队开始升级算法,专注于数学奥赛问题,作为OpenAI草莓项目的开源版本。
10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力。
在最难的AIME2024基准测试30道题中,原版LLaMA-3.1-8B-Instruct做对2道,优化后做对8道,超过了除o1-preview和o1-mini之外的其他商业闭源方案。
10月底,团队宣布在基于AlphaGo Zero架构复刻OpenAI o1的努力中取得了重大进展:
已成功使模型在学习过程中通过与搜索树交互获


原文链接:Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...