MiMo-V2.5

MiMo-V2.5 – 小米推出的全模态 Agent 大模型系列

小米大模型团队近日发布了其新一代全模态 Agent 大模型系列——MiMo-V2.5。该系列共包含 V2.5、V2.5-Pro、V2.5-TTS 及 V2.5-ASR 四个版本，标志着大模型在理解和执行复杂任务方面迈出了重要一步。

MiMo-V2.5 概览

MiMo-V2.5 是一款原生的全模态 Agent，能够同时处理和理解图像、音频、视频等多种信息，并将其转化为实际行动。其强大的上下文处理能力可达 1M Token，为处理海量信息提供了可能。而 MiMo-V2.5-Pro 版本则专为应对长程且复杂的任务而设计，能够稳定执行近千轮的工具调用。在软件工程领域，MiMo-V2.5-Pro 的表现已可比肩 Claude Opus 4.6 和 GPT-5.4 等顶级闭源模型，同时在 Token 效率上实现了 42% 至 50% 的显著提升。值得一提的是，MiMo-V2.5 全系模型即将面向全球开源。

MiMo-V2.5 的核心能力亮点

MiMo-V2.5
- 原生全模态 Agent：该模型具备“视听读写”的全方位感知能力，能将多模态信息（图像、音频、视频）的理解转化为具体的行动，实现真正的跨模态智能。
- 通用 Agent 场景：适用于处理日常生活中各种简单到中等复杂度的任务，且 API 调用成本相较于上一代模型降低了约一半。
- 多模态感知能力跃升：在跨模态推理、视频内容分析以及图表解读等方面，相较于前代 MiMo-V2-Omni 有了质的飞跃。在 VideoMME、CharXiv、MMMU-Pro 等权威评测中，其表现已十分接近当前最先进的闭源模型。
MiMo-V2.5-Pro
- 长程复杂任务专家：该版本擅长处理需要海量上下文和多步骤推理的长流程任务，能够稳定地执行近千次工具调用。在指令遵循和模糊指令理解方面均有显著增强。
- 卓越的软件工程实力：能够胜任大型代码库的开发、多语言编程、代码调试以及性能优化等任务。甚至可以完成编译器、视频编辑软件等复杂项目的交付。
- 自主项目交付能力展示：例如，它仅用 Rust 语言便从零开始，在 4.3 小时内完成了 SysY 编译器的开发，并通过了全部隐藏测试集（233/233）。又如，它仅凭简单的指令，在 11.5 小时内构建了一个功能齐全的多轨道视频编辑器 Web 应用，代码量达 8,192 行，调用次数 1,868 次。
语音能力升级
- V2.5-TTS 系列：语音合成技术得到全面革新，在自然度、多语种/方言/音色支持等方面均有显著提升。
- V2.5-ASR：语音识别的准确率和实时性得到了大幅改进，同时支持多种语言和方言。

如何体验与接入 MiMo-V2.5

网页端便捷体验：用户可直接访问 MiMo Studio 官网，完成注册登录后，即可选择 MiMo-V2.5 模型进行交互式对话体验。
API 开发集成：开发者可前往 API 开放平台（https://platform.xiaomimimo.com/#/token-plan）注册开发者账号，并创建应用以获取 API Key，从而将 MiMo-V2.5 集成到自己的应用中。

MiMo-V2.5 的关键信息与使用须知

访问入口
- MiMo Studio 体验入口：https://aistudio.xiaomimimo.com
- API 调用入口：https://platform.xiaomimimo.com
开源展望：备受期待的 MiMo-V2.5-Pro 和 MiMo-V2.5 模型即将面向全球开发者社区开源。
定价策略
- MiMo-V2.5：采用 1x Credits 计费标准（1 Token 等于 1 Credit）。
- MiMo-V2.5-Pro：采用 2x Credits 计费标准（1 Token 等于 2 Credits）。
超长上下文窗口：全系列模型均支持高达 1M Token（约相当于 75 万汉字）的超长上下文处理能力，用户在分析长篇文档时将不再需要额外付费。

MiMo-V2.5 的突出优势

Token 效率的突破性进展：在 ClawEval 基准测试中，MiMo-V2.5-Pro 在达到相同性能水平时，比 Kimi K2.6 节省了 42% 的 Token；而 MiMo-V2.5 则比 Muse Spark 节省了 50% 的 Token，这对于大规模应用部署而言，将显著降低成本。
长程任务的卓越稳定性：通过配合适当的运行框架，MiMo-V2.5 系列能够稳定完成单次近千轮的工具调用任务。并且在超长周期内，模型能保持逻辑一致性并进行自我修正（例如，在编译器开发任务中，模型在第 512 轮重构后能自行诊断并恢复）。
原生全模态融合的优势：文本、图像、音频、视频等多种模态的处理能力被无缝集成到单一模型之中，用户无需在不同模态的模型之间进行切换，极大提升了使用便捷性。
高效的推理速度：V2.5 版本的平均推理速度可达 100~150 tokens/秒，而 V2.5-Pro 版本为 60~80 tokens/秒。基础版本 V2.5 更适合对延迟敏感的场景。

MiMo-V2.5 的广泛应用场景

复杂软件工程的自动化：能够自主完成编译器、视频编辑器、Web 应用等大型工程项目的从零构建、调试和交付，其效率堪比人类专家数天乃至数周的工作量。
多模态内容深度解析：用户可以上传冰箱内的照片，模型即可提供菜谱建议；观看视频教程，模型能生成关键步骤摘要；录制会议内容，模型可提取待办事项。
科研与工程领域的自动化提效：可应用于模拟电路的 EDA 设计、性能优化分析，以及学术文献的长篇幅分析和跨文档推理等场景。
智能化交互与服务：在车联网、智能家居以及需要实时交互的各类系统中，可基于其全模态感知能力（语音、图像、文本）提供更智能化的服务。
企业级 Agent 的规模化部署：在需要处理海量 API 调用的场景下，MiMo-V2.5 系列凭借其出色的 Token 效率，能够实现成本可控的自动化工作流。

阅读原文