MiMo-V2.5

AI工具11小时前更新 AI工具集
2 0 0

MiMo-V2.5 – 小米推出的全模态 Agent 大模型系列

小米大模型团队近日发布了其新一代全模态 Agent 大模型系列——MiMo-V2.5。该系列共包含 V2.5、V2.5-Pro、V2.5-TTS 及 V2.5-ASR 四个版本,标志着大模型在理解和执行复杂任务方面迈出了重要一步。

MiMo-V2.5 概览

MiMo-V2.5 是一款原生的全模态 Agent,能够同时处理和理解图像、音频、视频等多种信息,并将其转化为实际行动。其强大的上下文处理能力可达 1M Token,为处理海量信息提供了可能。而 MiMo-V2.5-Pro 版本则专为应对长程且复杂的任务而设计,能够稳定执行近千轮的工具调用。在软件工程领域,MiMo-V2.5-Pro 的表现已可比肩 Claude Opus 4.6 和 GPT-5.4 等顶级闭源模型,同时在 Token 效率上实现了 42% 至 50% 的显著提升。值得一提的是,MiMo-V2.5 全系模型即将面向全球开源。

MiMo-V2.5 的核心能力亮点

  • MiMo-V2.5

    • 原生全模态 Agent:该模型具备“视听读写”的全方位感知能力,能将多模态信息(图像、音频、视频)的理解转化为具体的行动,实现真正的跨模态智能。
    • 通用 Agent 场景:适用于处理日常生活中各种简单到中等复杂度的任务,且 API 调用成本相较于上一代模型降低了约一半。
    • 多模态感知能力跃升:在跨模态推理、视频内容分析以及图表解读等方面,相较于前代 MiMo-V2-Omni 有了质的飞跃。在 VideoMME、CharXiv、MMMU-Pro 等权威评测中,其表现已十分接近当前最先进的闭源模型。

    MiMo-V2.5-Pro

    • 长程复杂任务专家:该版本擅长处理需要海量上下文和多步骤推理的长流程任务,能够稳定地执行近千次工具调用。在指令遵循和模糊指令理解方面均有显著增强。
    • 卓越的软件工程实力:能够胜任大型代码库的开发、多语言编程、代码调试以及性能优化等任务。甚至可以完成编译器、视频编辑软件等复杂项目的交付。
    • 自主项目交付能力展示:例如,它仅用 Rust 语言便从零开始,在 4.3 小时内完成了 SysY 编译器的开发,并通过了全部隐藏测试集(233/233)。又如,它仅凭简单的指令,在 11.5 小时内构建了一个功能齐全的多轨道视频编辑器 Web 应用,代码量达 8,192 行,调用次数 1,868 次。

    语音能力升级

    • V2.5-TTS 系列:语音合成技术得到全面革新,在自然度、多语种/方言/音色支持等方面均有显著提升。
    • V2.5-ASR:语音识别的准确率和实时性得到了大幅改进,同时支持多种语言和方言。

如何体验与接入 MiMo-V2.5

  • 网页端便捷体验:用户可直接访问 MiMo Studio 官网,完成注册登录后,即可选择 MiMo-V2.5 模型进行交互式对话体验。
  • API 开发集成:开发者可前往 API 开放平台(https://platform.xiaomimimo.com/#/token-plan)注册开发者账号,并创建应用以获取 API Key,从而将 MiMo-V2.5 集成到自己的应用中。

MiMo-V2.5 的关键信息与使用须知

  • 访问入口
    • MiMo Studio 体验入口:https://aistudio.xiaomimimo.com
    • API 调用入口:https://platform.xiaomimimo.com
  • 开源展望:备受期待的 MiMo-V2.5-Pro 和 MiMo-V2.5 模型即将面向全球开发者社区开源。
  • 定价策略
    • MiMo-V2.5:采用 1x Credits 计费标准(1 Token 等于 1 Credit)。
    • MiMo-V2.5-Pro:采用 2x Credits 计费标准(1 Token 等于 2 Credits)。
  • 超长上下文窗口:全系列模型均支持高达 1M Token(约相当于 75 万汉字)的超长上下文处理能力,用户在分析长篇文档时将不再需要额外付费。

MiMo-V2.5 的突出优势

  • Token 效率的突破性进展:在 ClawEval 基准测试中,MiMo-V2.5-Pro 在达到相同性能水平时,比 Kimi K2.6 节省了 42% 的 Token;而 MiMo-V2.5 则比 Muse Spark 节省了 50% 的 Token,这对于大规模应用部署而言,将显著降低成本。
  • 长程任务的卓越稳定性:通过配合适当的运行框架,MiMo-V2.5 系列能够稳定完成单次近千轮的工具调用任务。并且在超长周期内,模型能保持逻辑一致性并进行自我修正(例如,在编译器开发任务中,模型在第 512 轮重构后能自行诊断并恢复)。
  • 原生全模态融合的优势:文本、图像、音频、视频等多种模态的处理能力被无缝集成到单一模型之中,用户无需在不同模态的模型之间进行切换,极大提升了使用便捷性。
  • 高效的推理速度:V2.5 版本的平均推理速度可达 100~150 tokens/秒,而 V2.5-Pro 版本为 60~80 tokens/秒。基础版本 V2.5 更适合对延迟敏感的场景。

MiMo-V2.5 的广泛应用场景

  • 复杂软件工程的自动化:能够自主完成编译器、视频编辑器、Web 应用等大型工程项目的从零构建、调试和交付,其效率堪比人类专家数天乃至数周的工作量。
  • 多模态内容深度解析:用户可以上传冰箱内的照片,模型即可提供菜谱建议;观看视频教程,模型能生成关键步骤摘要;录制会议内容,模型可提取待办事项。
  • 科研与工程领域的自动化提效:可应用于模拟电路的 EDA 设计、性能优化分析,以及学术文献的长篇幅分析和跨文档推理等场景。
  • 智能化交互与服务:在车联网、智能家居以及需要实时交互的各类系统中,可基于其全模态感知能力(语音、图像、文本)提供更智能化的服务。
  • 企业级 Agent 的规模化部署:在需要处理海量 API 调用的场景下,MiMo-V2.5 系列凭借其出色的 Token 效率,能够实现成本可控的自动化工作流。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...