Seed-Thinking-v1.5

Seed-Thinking-v1.5 – 字节跳动推出的最新思考模型

Seed-Thinking-v1.5

Seed-Thinking-v1.5 是字节跳动推出的一款先进推理智能模型,采用了混合专家(MoE)架构,拥有高达 200B 的总参数量,每次激活 20B 参数。该模型在诸多基准测试中表现突出,如在 AIME 2024 测试中获得 86.7 分,在 Codeforces 评测中 pass@8 指标达到了 55.0 分,在 GPQA 测试中得分为 77.3 分。此外,Seed-Thinking-v1.5 在非推理任务中的胜率比 DeepSeek R1 高出 8%,展现了其强大的适应能力。该模型将于 4 月 17 日通过火山引擎开放接口供用户体验。

Seed-Thinking-v1.5是什么

Seed-Thinking-v1.5 是字节跳动开发的一款推理智能模型,采用混合专家(MoE)架构,具有总计 200B 的参数量,并在运行时激活 20B 参数。该模型在多个权威测试中表现优异,如 AIME 2024 测试得分 86.7,Codeforces 评测中的 pass@8 指标达到 55.0%,以及 GPQA 测试得分 77.3。在非推理任务中,其胜率比 DeepSeek R1 高出 8%,显示了广泛的应用潜力。Seed-Thinking-v1.5 的开发依赖于经过精心挑选的训练数据、先进的强化学习框架、双层奖励系统及高效的基础设施。该模型将于 4 月 17 日通过火山引擎的开放接口供用户体验。

Seed-Thinking-v1.5的主要功能

  • 卓越的推理能力:Seed-Thinking-v1.5 在多个权威基准测试中表现优异,例如在 AIME 2024 测试中获得 86.7 分,在 Codeforces 评测中 pass@8 指标达到 55.0%,在 GPQA 测试中得分为 77.3,显示出其在 STEM 领域和编程能力上的强大推理能力。
  • 广泛的泛化能力:该模型在非推理任务中的表现同样出色,胜率超出 DeepSeek R1 8%,展现了其在复杂用户场景中的处理能力。
  • 高效的基础设施:为支持大规模训练,Seed-Thinking-v1.5 采用了 HybridFlow 编程模型和流式推理系统(SRS),通过三层并行架构(张量/专家/序列并行)优化了训练效率。

Seed-Thinking-v1.5的技术原理

  • 混合专家模型(MoE)架构:该模型采用混合专家模型架构,拥有 200B 的总参数量,每次激活 20B 参数,既保持高性能,又显著降低了计算资源的消耗,提升了模型效率。
  • 强化学习算法
    • VAPO 和 DAPO 框架:为应对强化学习中的不稳定性问题,研究团队提出了 VAPO(面向 Actor-Critic)和 DAPO(面向 Policy Gradient)两大框架。这些方法提供了稳定的训练轨迹,优化了推理模型。
    • 奖励建模:团队设计了两种奖励建模方案,Seed-Verifier 和 Seed-Thinking-Verifier。后者通过详细的推理过程,有效解决了奖励、预测不确定性和边界情况处理等问题。
  • 数据处理与增强
    • 可验证问题:涵盖数学、编程和逻辑谜题,通过严格筛选与增强(例如将选择题转为填空题),确保模型获得真实的推理能力。
    • 非可验证问题:如创意写作和对话,通过动态过滤低方差样本,避免模型陷入局部优化。
    • 数据增强策略:例如由模型生成候选答案,并结合人工验证修正错误参,以提升数据可靠性。
  • 分布式训练基础设施
    • 混合并行架构:结合张量并行、专家并行和上下文并行,支持高效的大规模训练。
    • 流式生成系统(SRS):通过异步处理和动态资源调度,提升长文本生成效率 3 倍,解决了传统同步框架的“拖尾问题”。
    • 自动调优系统:根据实时负载动态选择最优计算配置,平衡内存与计算资源。

Seed-Thinking-v1.5的项目地址

Seed-Thinking-v1.5的性能表现

  • 数学推理:在 AIME 2024 测试中获得 86.7 分,与 OpenAI 的 o3-mini-high 持平。
  • 编程任务:在 Codeforces 评测中,pass@8 指标达到 55.0%,优于 DeepSeek-R1。
  • 科学问答:在 GPQA 测试中准确率达 77.3%,接近顶尖模型水平。
  • 非推理任务:在非推理任务中,胜率比 DeepSeek R1 高出 8%,展现出较强的泛化能力。

Seed-Thinking-v1.5的应用场景

  • 科学问答:Seed-Thinking-v1.5 在科学问答方面表现卓越,能够理解和回答涉及科学概念和原理的复杂问题,适合教育和研究领域。
  • 创意写作:该模型可生成跨时空对话,如模拟历史人物的内心独白或融合不同领域术语的叙事,具有在内容创作、广告、剧本编写等领域的潜在应用价值。
  • 逻辑推理:在处理需要逻辑分析和推理的问题时,Seed-Thinking-v1.5 显示出显著优势,适合法律分析、市场策略规划等需要逻辑判断的场景。
  • 教育辅助:Seed-Thinking-v1.5 的推理能力能够帮助学生解决数学和科学问题,提供编程练习反馈,辅助语言学习。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...