MiniMax M2.5

MiniMax M2.5 – MiniMax开源的新一代旗舰AI模型

M2.5：编程与Agentic领域的革新之星

MiniMax倾力打造的M2.5，是一款拥有100亿激活参数的轻量级旗舰大模型，它以其卓越的编程能力和Agentic（代理）执行效能，重新定义了行业标杆。M2.5不仅在推理速度上实现了质的飞跃，达到每秒100个请求（TPS）的惊人表现，是Claude Opus的3倍之多，更在多达10余种主流编程语言（如Go、Rust、Kotlin、Python、Java等）的全栈开发、复杂逻辑解析以及企业级系统构建方面展现出非凡实力。

M2.5的核心价值何在？

M2.5，作为MiniMax最新推出的100亿激活参数轻量级旗舰大模型，其核心竞争力在于对编程与Agentic能力的深度聚焦。这款模型以每秒100个请求（TPS）的超高速推理能力傲视群雄，堪称Claude Opus的三倍。它能够驾驭包括Go、Rust、Kotlin、Python、Java在内的十多种编程语言，胜任全栈开发、复杂逻辑推理以及企业级系统的搭建工作。在SWE-Bench Verified（80.2%）和Multi-SWE-Bench（51.3%）等权威基准测试中，M2.5均取得了领先行业的顶尖水平（SOTA），并展现出“架构师级”的任务分解与规划能力。M2.5采用了Agent原生架构，旨在成为下一代数字化办公的核心驱动力。

M2.5的关键功能亮点：

精湛的智能编程：支持超过10种语言的全栈开发，具备如同架构师般的规划能力，能够完成从系统设计到测试评审的整个软件生命周期。
高效的Agentic执行：通过精准的工具调用与智能搜索，以更少的token消耗和更快的速度自主解决复杂任务。
无缝的办公自动化：能够直接生成Word、PPT、Excel等专业级文档，将行业内的隐性知识转化为可复用、标准化的技能。
个性化专家构建：允许用户整合领域内标准操作规程（SOP）与核心能力，创建专属的自定义Expert，目前平台已汇聚超过10,000个专家。
卓越的性价比：以每小时仅需1美元的成本，实现每秒100个请求的连续运行，使得运行复杂Agent成为经济上完全可行的选择。

M2.5的技术内核解析：

Forge原生Agent RL框架：通过引入中间层，实现了底层训练与推理引擎与Agent的完全解耦，支持任意Agent的接入与优化。结合异步调度与树状合并训练样本策略，实现了高达约40倍的训练加速，验证了模型能力随算力和任务数量呈近乎线性的增长。
Agentic RL算法与奖励设计：沿用了CISPO算法以确保MoE模型在大规模训练中的稳定性，并引入过程奖励机制来解决长上下文信用分配难题。同时，将任务的实际耗时作为奖励因子，在模型效果与响应速度之间取得了最佳平衡。
高效推理与任务优化：通过强化学习激励模型高效地分解复杂任务并优化token消耗。结合原生100 TPS的推理速度与并行工具调用能力，SWE-Bench Verified任务完成时间较M2.1缩短了37%，同时保持了顶尖的性能水平。
大规模真实环境训练：基于超过20万个真实环境进行强化学习训练，涵盖编程、搜索、办公等多种场景。将公司内部研发、产品、销售等职能的真实工作流程转化为训练数据，持续提升模型在实际任务中的泛化能力。
极致成本架构设计：采用了MoE架构以实现高速低耗的推理，提供50 TPS和100 TPS两种版本。配合缓存机制，将输出价格降低至同类模型的1/10至1/20，首次实现了复杂Agent的经济可行性与无限运行。

M2.5的辉煌性能展现：

编程实力非凡：在SWE-Bench Verified测试中斩获80.2%的高分，超越Claude Opus 4.6；在Multi-SWE-Bench多语言编程基准测试中以51.3%的成绩位居行业榜首；在VIBE-Pro内部基准测试中，表现与Opus 4.5相当。其跨脚手架泛化能力尤为突出，在Droid上达到了79.7%的通过率，领先于Opus 4.6的78.9%；在OpenCode上更是取得了76.1%的成绩，同样超越了Opus 4.6的75.9%。
搜索与工具调用精准高效：在BrowseComp基准测试中，M2.5以76.3%的成绩位列行业顶尖水平，Wide Search表现同样出色。在RISE真实交互搜索评估中，展现出专家级的搜索能力。与前代M2.1相比，在多项任务中减少了约20%的搜索轮次，token效率得到了显著提升。
办公场景表现优异：在内部Cowork Agent评估框架GDPval-MM上，M2.5取得了59.0%的平均胜率；在基于Excel竞赛的MEWC基准测试以及专家构建的金融建模评估中，均取得了优异的成绩。

M2.5的获取途径：