MAI-Thinking-1

MAI-Thinking-1 – 微软推出的首款自研高级推理模型

微软近期发布了一款名为 MAI-Thinking-1 的重磅产品，这是其首款自主研发的高级推理模型。该模型采用了一种创新的稀疏混合专家（MoE）架构，拥有 350 亿活跃参数，而总参数量则达到了惊人的 1 万亿。值得注意的是，MAI-Thinking-1 完全基于微软自身拥有商业授权的干净数据从零开始训练，不依赖任何第三方模型的蒸馏技术，确保了其独特性和可控性。在 SWE-Bench Pro 和 AIME 2025/2026 等严苛的基准测试中，MAI-Thinking-1 展现出了业界领先的实力，其表现与 Claude Opus 4.6 不相上下，在盲测中甚至超越了 Sonnet 4.6。

MAI-Thinking-1 的关键能力概览

卓越的数学与科学洞察力：在 AIME 2025 竞赛中取得了 97.0% 的优异成绩，在 AIME 2026 中也达到了 94.5%，充分证明了其在 STEM 领域的强大推理功底。
智能化的软件工程助手：在 SWE-Bench Pro 基准测试中，MAI-Thinking-1 获得了 52.8% 的得分，在 LiveCodeBench v6 上更是高达 87.7%。它能够胜任多步骤的代码理解、修改、测试以及故障恢复等复杂任务。
超长文本的处理能力：该模型支持高达 256K 的超长上下文窗口，能够轻松应对海量文档和庞大的代码库，进行深度分析和处理。
强大的工具调用与自主代理（Agent）能力：MAI-Thinking-1 具备调用外部工具和与环境进行交互的能力，能够完成一系列复杂的多步骤任务。
安全与实用性的和谐统一：通过强化学习的优化，MAI-Thinking-1 在提升模型实用性的同时，也着重降低了有害输出的风险，实现了安全与有用的平衡。

MAI-Thinking-1 的技术精髓

精巧的稀疏 MoE 架构：MAI-Thinking-1 运用了 78 层的 Decoder-only Transformer 结构。它巧妙地在交替的稀疏 MoE 层和密集 FFN 层之间，采用了 8/512 专家激活的配置，并辅以 5:1 的局部/全局注意力机制。这种设计使得模型在保持 350 亿活跃参数的同时，能够模拟出接近 1 万亿参数的强大性能，极大地降低了推理过程中的 KV 缓存和计算开销。
纯净数据与深度预训练：该模型基于 30 万亿 token 的纯净、商业授权数据进行从头训练，严格剔除了 AI 生成内容和非商业开源训练集，并对常见基准进行了去污染处理。在中期训练阶段，模型进一步强化了 STEM、数学和代码相关的能力，最终支持了 256K 的超长上下文处理。
“爬坡式”强化学习：微软引入了“爬坡机器”（Hill-Climbing Machine）的概念，通过自主研发的强化学习框架，让模型从零开始学习推理链，摆脱了对先验 CoT 蒸馏的依赖。该框架针对 STEM 推理、Agentic 编码以及有用性与安全性等三个关键领域，进行了数千步的持续对数线性提升。
严谨的评估体系：微软内部构建了一个包含近 40 个 NLL（负对数似然）基准的评估体系，覆盖代码、STEM、数学、通用知识和多语言五大类。评估优先采用负对数似然非多选题的形式，以避免格式偏差。同时，还建立了私有基准以防止数据污染，确保评估结果能真实反映模型的实际能力。

MAI-Thinking-1 的使用前景

目前，MAI-Thinking-1 的具体使用方式和接入渠道尚未对外公布。

MAI-Thinking-1 的突出优势

完全自主研发，无蒸馏痕迹：摆脱了第三方模型的设计局限，拥有更强的可控性和定制化潜力。
中等规模，顶尖效能：以 350 亿活跃参数的规模，媲美 Claude Opus 4.6 等更大模型，显著降低了推理成本，提升了部署灵活性。
数据纯净，可追溯性强：排除了 AI 生成内容，保证了模型行为的可解释性和可改进性。
全栈自主，尽在掌握：从微软自研的加速器到训练框架和 RL 环境，均为内部构建，实现了端到端的优化。
持续进化的能力：爬坡机器架构的设计，使其能够不断吸收更优质的数据、更强的奖励信号和更多的计算资源，实现能力的持续迭代与飞跃。

MAI-Thinking-1 的同类竞品对比

维度	MAI-Thinking-1	Claude Opus 4.6	DeepSeek-R1
架构	35B 活跃 / 1T 总参数 MoE	未公开（大密集模型）	37B 活跃 / 671B 总参数 MoE
训练方式	从头训练，无蒸馏	未公开	基于 DeepSeek-V3 蒸馏
SWE-Bench Pro	52.8%	~52.8%（持平）	约 49-50%
AIME 2025	97.0%	未明确	约 79.8%
上下文长度	256K	200K	128K
数据策略	纯净商业数据，无 AI 生成内容	未明确	开源+合成数据
全栈自主	是（微软自研硬件到框架）	否（Anthropic）	部分（依赖 NVIDIA 生态）