MindDR 1.5 – 理想汽车推出的多智能体深度研究框架
MindDR 1.5:革新深度研究范式,赋能智能决策
由理想汽车信息智能体团队匠心打造的 MindDR 1.5,正以其卓越的多智能体深度研究框架,重新定义着信息获取与分析的边界。该框架在参数规模仅约 30B 的条件下,于 DeepResearch Bench 评测中斩获 52.54 分的辉煌成绩,标志着其已跻身业界领先行列。
MindDR 1.5 揭秘:一个智能体协作的深度研究引擎
MindDR 1.5 并非单一模型,而是由 Planning、DeepSearch、Report 三大智能体巧妙协作的集成系统。通过创新的 Planning、DeepSearch、Report 三智能体协作架构,并辅以 SFT 冷启动、Search-RL、Report-RL 以及偏好对齐这四阶段的精炼训练管线,MindDR 1.5 成功规避了成本高昂的“mid-training”环节。这不仅使得训练 token 锐减 71.4%,卡时更是降低了 60%,在实现低成本高效益的同时,孕育出强大的深度研究能力。如今,这一强大能力已深度集成于理想同学在线产品,为用户提供触手可及的智能服务。
MindDR 1.5 的核心能力概览
- 智能任务分解师:Planning Agent 能够精准洞察用户意图,自动将复杂的查询拆解为一系列可执行的子任务,为深度研究奠定坚实基础。
- 深度并行探索者:DeepSearch Agent 凭借其强大的多轮搜索、严谨的验证以及长程推理能力,能够深入挖掘信息,层层递进,直至大白。
- 卓越报告生成器:Report Agent 擅长整合来自多源头的关键证据,提炼精华,最终输出逻辑清晰、结构严谨的高质量长篇报告。
- 贯穿始终的记忆流:通过 Extended Chain-of-Thought(XoT)与 Tool Memory 的创新应用,MindDR 1.5 实现了跨越智能体的无缝信息流转与清晰的溯源机制,确保研究过程的透明与可追溯。
- 强大的工具生态调用:该框架无缝支持 Web、Database、Browser、Python 等多种通用工具接口,为信息检索与处理提供了极大的灵活性。
MindDR 1.5 的技术内核解析
- 智能体协同的精妙设计:MindDR 1.5 将深度研究的复杂流程巧妙地划分为 Planning Agent(负责任务规划)、DeepSearch Agent(负责深度搜索)和 Report Agent(负责报告撰写)。通过 Memory 模块,这三个分工明确的智能体能够高效共享 XoT 推理轨迹与工具调用记录,有效规避了单一模型处理长上下文带来的膨胀问题以及能力耦合造成的干扰。
- 四阶段训练的迭代优化:
- SFT 冷启动:奠定智能体执行工具调用、遵循格式以及进行多轮推理的基础能力。
- Search-RL:在真实工具环境中进行在线强化学习,采用动态调度奖励机制(工具调用→格式→PRM→ORM 递进),显著提升了长链路搜索与决策的效率。
- Report-RL:以 RACE Rubrics(全面性、洞察力、可读性、指令遵循)为核心奖励,并结合引用与格式奖励,精益求精地优化长报告的生成质量。
- 偏好对齐的精细打磨:通过 DPO 与 Self-SFT 技术,MindDR 1.5 精准解决了时态一致性、表格格式等细微的用户体验痛点,使其输出更贴近人类的偏好。
- 高质量数据合成的智慧:基于百度百科与英文构建知识图谱,通过子图采样、多跳 QA 生成、条件混淆与严格的质量过滤,MindDR 1.5 合成了大量高质量、具备复杂推理能力的研究数据,并将其与真实用户查询混合,有效弥合了模型训练与实际应用之间的分布差距。
MindDR 1.5 的关键亮点与使用门槛
- 研发主体:由理想汽车(Li Auto)信息智能体团队自主研发与维护。
- 开源情况:技术报告与相关论文已公开发布(arXiv 2604.14518),但模型权重与产品接口目前尚未开源。
- 模型规模:采用约 30B 参数的稠密模型与 MoE 模型双重技术路线,在同等规模的开源系统中展现出领先的性能。
- 训练效率飞跃:相较于 MindDR 1.0,训练 token 数量大幅减少 71.4%,训练卡时降低 60%,实现了显著的效率提升。
- 产品化落地:MindDR 1.5 已作为核心技术驱动理想同学(Livis)在线产品,面向真实用户场景提供卓越的深度研究服务。
- 权威评测体系:在 DeepResearch Bench、MindDR Bench、BrowseComp、xbench-DS、WideSearch 等多个深度搜索与研究报告评测体系中均表现优异。
MindDR 1.5 的核心竞争力
- 低成本的卓越性能:以 30B 级的小巧模型,通过多阶段强化学习策略成功跳过昂贵的 mid-training,实现了业界领先的性能,极大地降低了训练与推理成本。
- 清晰的智能体分工:将搜索与写作任务解耦至三个的智能体,有效避免了端到端训练中常见的奖励稀疏和能力干扰问题,并支持高效的并行子任务执行。
- 动态递进的奖励机制:Search-RL 采用阈值触发的动态奖励调度,从基础的工具调用逐步过渡到深层推理优化,模拟了“顿悟式”的能力跃迁过程。
- 真实场景的精准对齐:基于 500 条真实用户查询构建的 MindDR Bench,其评测维度涵盖内容质量与呈现格式,能够直接反映并优化用户体验。
- 高效且精准的搜索决策:在同等准确率下,MindDR 1.5 的工具调用次数和上下文 token 消耗显著低于同规模竞品,实现了准确性与效率的高度统一。
MindDR 1.5 项目链接
- HuggingFace 模型库:https://huggingface.co/papers/2604.14518
- arXiv 技术论文:https://arxiv.org/pdf/2604.14518
MindDR 1.5 与同类竞品深度对比
| 对比维度 | MindDR 1.5 | Gemini 3.1 Pro | OpenAI Deep Research |
|---|---|---|---|
| 开发方 | 理想汽车 | OpenAI | |
| 参数规模 | 约 30B | 未公开(大型模型) | 未公开(大型模型) |
| 架构设计 | 三智能体协作(规划/搜索/报告分离) | 单/多智能体(细节未公开) | 单智能体端到端 |
| 训练策略 | 四阶段管线(规避 mid-training) | 大规模持续预训练 | 端到端强化学习 |
| DeepResearch Bench | 52.54 | 52.17 | 46.45 |
| BrowseComp-ZH | 45.7 | — | — |
| 核心特点 | 小模型+多阶段 RL,成本极低 | 原生多模态,通用性强 | 闭源产品,体验成熟 |
| 开源程度 | 论文公开,模型未开源 | 闭源 | 闭源 |
MindDR 1.5 的广泛应用场景
- 汽车行业深度洞察:能够精准分析汽车市场的竞争格局、价格战策略、前沿技术路线等复杂商业议题。
- 学术科研的得力助手:自动执行文献检索,整合多源证据,并生成格式规范、引用严谨的研究综述。
- 金融投资的智慧之眼:对上市公司、行业趋势进行多轮信息验证,并输出结构化的深度分析报告。
- 产品决策的坚实支撑:基于海量公开数据和用户行为日志,生成切实可行、富有洞察力的商业分析报告。
- 智能座舱的知识宝库:作为理想同学的核心能力,为车主提供高可信度的深度知识问答服务,提升驾乘体验。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...

粤公网安备 44011502001135号