这是阶跃星辰 Step 系列模型家族的首个推理模型。
原标题:刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科
文章来源:机器之心
内容字数:4404字
国产推理大模型Step Reasoner mini强势来袭
国产大模型“六小虎”成员阶跃星辰发布了其首个推理模型Step Reasoner mini(Step R-mini),在多个基准测试中达到SOTA水平,甚至超越了OpenAI的o1-mini模型。该模型具备强大的超长推理能力,能够解决逻辑推理、代码、数学等复杂问题,同时也能胜任文学创作等通用任务,实现“文理兼修”。
1. Step R-mini 的核心能力与优势
Step R-mini 通过在推理阶段增加计算量,结合思维链等技术,实现了“慢思考”,能够主动规划、尝试和反思,最终提供准确可靠的回复。其强大的推理能力源于高比例的强化学习(RL)训练,以及在数据质量、测试时计算、模型大小等方面的全面Scaling,充分验证了Scaling Law的有效性。 它在AIME 2024和Math500数学基准测试中均达到SOTA水平,在LiveCodeBench代码任务上也超过了o1-preview。
2. “文理兼修”的体现
Step R-mini 不仅能出色地完成数学、代码和逻辑推理等任务,还能进行富有创意的文学创作和日常。例如,它能够准确解答古诗词相关的算术问题,并解决复杂的数学题,同时还能进行富有创意的翻译和中文名生成,展现了其强大的“文理兼修”能力。
3. Step R-mini 的训练方法
Step R-mini 的训练采用了大规模强化学习,并使用了On-Policy强化学习算法。阶跃星辰在模型训练过程中坚持Scaling Law原则,包括Scaling强化学习、Scaling数据质量、Scaling Test-Time Compute和Scaling模型大小,从而提升了模型的推理能力。尤其值得一提的是,在测试阶段,System 2范式使Step R-mini能够进行高达50,000规模的思考token,实现了深度思考。
4. 视觉推理模型的未来展望
除了语言推理模型,阶跃星辰还在开发视觉推理模型,旨在将推理能力融入更多交互形态的大模型中。该视觉推理模型将通过“慢感知”和空间推理,实现真正的视觉领域推理,而非仅仅基于图像的文字推理。初步展示的案例表明,该模型能够解答图中题目、进行空间推理以及识别图像中的数字对应关系,展现了其巨大的潜力。
5. 总结
Step Reasoner mini的出现标志着国内大模型在推理能力方面取得了显著进展。其“文理兼修”的能力和强大的推理能力,为未来大模型的发展提供了新的方向。 阶跃星辰在Scaling Law上的坚持和对视觉推理模型的探索,也为大模型技术的持续创新提供了有力支撑。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台