s1

s1 – 斯坦福和华盛顿大学推出低成本、高性能的AI推理模型

s1是什么

s1是由斯坦福大学和华盛顿大学的研究者团队共同研发的一款低成本、高效能的AI推理模型。通过“蒸馏”技术,s1从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取了其推理能力。研究团队仅利用1000个精心设计的问题及其答案进行模型训练,训练成本低于50美元,且训练时间不超过30分钟。s1在数学和编程能力测试中表现出色,能够与OpenAI的o1和DeepSeek R1等顶尖推理模型相媲美。

s1

s1的主要功能

  • 出色的推理能力:s1模型专注于解决复杂问题,特别是在数学和编程领域表现卓越。它能够应对高难度的数学竞赛题目,例如AIME(美国数学邀请赛)问题,且在此类问题上的表现显著超过OpenAI的o1-preview模型,提升幅度达27%。
  • 低成本训练:s1模型的训练仅依赖于1000个经过精心挑选的问题及其推理过程,训练成本极其低廉,仅需不到50美元的云计算费用,且训练时长不超过30分钟。
  • 测试时扩展能力:s1模型采用预算技术,能够在测试阶段动态调整计算资源。通过终止模型的思考过程或添加“Wait”指令以延长思考时间,模型得以重新审视答案,纠正错误的推理步骤,从而提升推理效果。
  • 开源与可扩展性:s1模型的代码、数据及训练方法已在GitHub上开源,方便其他研究人员与开发者进行使用和进一步改进。

s1的技术原理

  • 数据集构建(s1K)
    • 数据来源:s1模型的数据集s1K包含1000个高质量的问题,这些问题从多个领域(如数学、物理、化学等)中筛选而来,涵盖了多种推理任务。
    • 筛选标准:通过难度、多样性和质量三个标准对问题进行筛选。难度通过模型性能和推理轨迹长度进行衡量;多样性则依据问题所属的领域分类;质量确保数据的格式及内容的准确性。
    • 最终选择:最终选定的问题覆盖50个不同的领域,确保数据的多样性和代表性。
  • 监督微调(SFT)
    • 模型选择:选择Qwen2.5-32B-Instruct作为基础模型,该模型在数学任务中表现优异。
    • 训练过程:在s1K数据集上进行监督微调,训练时间为26分钟,使用16个NVIDIA H100 GPU。训练期间,模型学习了从问题到推理轨迹和答案的映射。
  • 预算(Budget Forcing)
    • 控制测试时计算量:通过在测试阶段终止或延长模型的思考过程来控制计算资源,具体方法包括:
      • 终止:当模型生成的思考令牌数量超过预设的最大限制时,终止思考过程,直接输出答案。
      • 追加“Wait”指令:若希望模型思考更长时间,则在当前推理轨迹后添加“Wait”指令,以促使模型继续探索。
  • 测试时扩展方法的评估
    • 评估指标:通过控制性(Control)、扩展性(Scaling)和性能(Performance)三个指标对不同的测试时扩展方法进行评估。
    • 方法比较:s1模型比较了多种测试时扩展方法,包括基于令牌的控制、基于步骤的控制和基于类别的控制。最终,预算方法在控制性、扩展性和性能方面表现最佳。

s1的项目地址

s1的应用场景

  • 科学研究:s1模型可以应用于解决高难度的科学问题,例如物理、化学和生物学中的竞赛级问题。
  • 智能辅导系统:s1模型可作为智能辅导系统的核心,帮助学生解决复杂的数学和科学问题,并提供详细的推理步骤和解释。
  • 自动问答系统:s1模型适用于自动问答系统,尤其是在需要进行复杂推理和多步骤思考的场景中,比如处理用户提出的高难度问题。
  • 文本生成:s1模型可以用于生成高质量的文本内容,尤其是在逻辑推理和复杂结构的文本生成任务中。
  • 智能客服:s1模型可应用于智能客服系统,以解决复杂的用户问题,提供更准确和高效的解答。
  • 数据分析:s1模型适用于数据分析和预测任务,特别是在需要推理和逻辑分析的场景中。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...