Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

AIGC动态欢迎阅读

原标题：Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式
关键字：报告,模型,团队,过程,代码
文章来源：量子位
内容字数：0字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI复刻OpenAI o1推理大模型，开源界传来最新进展：
LLaMA版o1项目刚刚发布，来自上海AI Lab团队。
简介中明确：使用了蒙特卡洛树搜索，Self-Play强化学习，PPO，以及AlphaGo Zero的双重策略范式（先验策略+价值评估）。
在2024年6月，o1发布之前，团队就开始探索蒙特卡洛树搜索提高大模型数学能力，积累了一些关注。
这次最新开源代码，也在开发者社区引起热议。
OpenAI o1系列发布后，团队开始升级算法，专注于数学奥赛问题，作为OpenAI草莓项目的开源版本。
10月初，团队上传新论文，使用成对优化（不直接给出绝对分数，而是比较两个答案的相对优劣）提高Llama模型数学奥赛能力。
在最难的AIME2024基准测试30道题中，原版LLaMA-3.1-8B-Instruct做对2道，优化后做对8道，超过了除o1-preview和o1-mini之外的其他商业闭源方案。
10月底，团队宣布在基于AlphaGo Zero架构复刻OpenAI o1的努力中取得了重大进展：
已成功使模型在学习过程中通过与搜索树交互获

原文链接：Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式