MetaStone-S1

AI工具24小时前更新 AI工具集
1 0 0

MetaStone-S1 – 原石科技推出的反思型生成式大模型

MetaStone-S1是原石科技推出的一款具有创新性的反思型生成式大模型,它首次融合了深度推理与推理链自筛选能力。 该模型的核心在于自监督反思范式,采用共享主干的策略模型和过程评分模型(SPRM),通过仅增加53M参数即可实时评估推理步骤质量,无需人工标注。 MetaStone-S1支持Long-CoT强化学习,能够生成超长推理链,并在数学、代码和中文推理任务中展现出优越性能。

MetaStone-S1:开启“自我修正”推理新篇章

原石科技隆重推出MetaStone-S1,一款颠覆传统的生成式大模型。它不仅具备强大的推理能力,更独具“自我修正”的智慧,引领推理智能步入新纪元。

核心功能:

  • 深度推理引擎:MetaStone-S1能够构建超长且复杂的推理链,尤其擅长解决数学证明、程序算法等高难度问题。
  • 智能链条优化:内置自监督过程评分机制(SPRM),能够自动识别并剔除推理过程中的错误步骤,从而显著提高答案的准确性。
  • 多模式推理:提供Low(快速)、Medium(平衡)、High(深度)三种工作模式,满足不同场景下的推理需求。
  • 开放生态:全面开源1.5B、7B、32B三种规模模型及配套工具,方便开发者在特定领域进一步优化模型的推理能力。

技术亮点:

  • 双头共享架构:策略模型(Policy Model)和过程评分模型(SPRM)共享主干网络,Transformer层上并行部署生成头和评分头。前者负责生成推理链,后者则基于自监督学习对每个推理步骤进行实时评分。
  • 自监督过程奖励:采用SPR Loss(自监督过程奖励损失)算法,利用最终答案的正确性作为弱监督信号,通过噪声过滤机制自动生成步骤级伪标签,实现过程评分模型的训练,摆脱了对人工标注的依赖。
  • 动态推理择优:在推理阶段运用Test-Time Scaling技术:首先生成多条候选推理链(例如High模式生成32条),然后利用SPRM计算路径总分,最终选择最优路径继续生成,形成“生成-评估-择优”的闭环。
  • 协同优化机制:基于GRPO强化学习算法,同步优化策略模型和SPRM。策略模型旨在最大化答案正确率,而SPRM则通过对比学习区分优质/低质推理步骤,两者共享梯度,实现协同进化。
  • 涌现能力调控:设计思考长度与模型性能的Scaling Law,通过调整rollout次数控制计算量(参数量×思考token数),实现从快速响应(Low)到深度思考(High)的平滑过渡。

产品官网:

应用场景:

  • 教育领域:化身“AI导师”,精准解答数学/物理竞赛题目,并生成可交互的解题路径说明。
  • 法律领域:深度解析合同条款的逻辑关系,精准识别潜在法律风险,提供符合法律逻辑的修订建议。
  • 智能制造:基于多级因果推理,快速定位工业设备故障根源,并生成最优维修方案,显著提升生产效率。
  • 学术写作:支持科研论文的公式推导和理论验证,确保学术内容的逻辑严谨性。

常见问题解答:

Q: MetaStone-S1与其他模型的区别是什么?

A: MetaStone-S1的核心优势在于其“自我修正”能力,通过自监督过程评分机制,能够自动优化推理链,提高答案准确性。同时,它支持Long-CoT强化学习,能够生成超长推理链,解决更复杂的问题。

Q: MetaStone-S1的部署成本如何?

A: MetaStone-S1提供了1.5B、7B、32B三种规模的模型,开发者可以根据实际需求选择合适的版本。开源特性也降低了部署成本。

Q: 如何开始使用MetaStone-S1?

A: 您可以通过访问GitHub仓库和HuggingFace模型库获取MetaStone-S1的代码和模型,并参考相关文档进行部署和使用。

阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...