标签:大模型数学推理

仅用 8 张显卡和一万块钱,清华团队用7B模型打败GPT-4o数学推理

OpenAI o1 和 o3 模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的 Scaling Law 逐渐受到质疑的...
阅读原文