MagicAgent

MagicAgent – 荣耀联合复旦推出的智能体基础模型

荣耀携手复旦大学，倾力打造的划时代智能体基础模型——MagicAgent，以其卓越的32B密集架构与30B-A3B MoE架构，在百亿参数级别实现了性能的巅峰突破。

MagicAgent：智能体的革新之作

MagicAgent，荣耀与复旦大学的智慧结晶，是一款颠覆性的智能体基础模型。它凭借32B密集架构和30B-A3B MoE架构的强大支撑，在百亿参数模型领域树立了性能标杆。该模型构建了一个精巧的轻量级合成数据框架，能够全面覆盖任务分解、工具规划、多约束调度等五大核心场景。通过“SFT+多目标强化学习”的两阶段训练策略，MagicAgent有效解决了多任务间的冲突问题。尤为值得一提的是，其创新提出的χPO算法，巧妙地平衡了探索与利用的博弈，使得模型在复杂环境中展现出非凡的学习能力。在Worfbench、BFCL-v3等权威基准测试中，MagicAgent的表现已超越GPT-5.2、Kimi-K2等千亿级模型，成为业界首个实现全场景泛化规划的智能体模型，并已成功部署于荣耀Magic系列手机，赋能用户体验的全新升级。

MagicAgent的核心能力剖析

精细化任务拆解：MagicAgent能够将用户复杂模糊的指令，精准地分解为一系列可执行的子任务序列，并能智能处理任务间的多重依赖关系，实现高效的并行处理。
智能工具调用与规划：模型具备动态调用外部API和工具的能力，通过“推理-行动”的循环机制，从容应对需要实时信息或外部能力的复杂任务。
多重约束下的智能调度：面对带有时间、空间、资源等多重限制的计划制定任务，MagicAgent能够游刃有余地完成，例如制定详尽的行程安排或高效的会议日程。
程序逻辑的精妙编排：MagicAgent能够深刻理解并执行包含条件分支、循环结构的工作流，严密维护任务间的复杂依赖逻辑。
长程任务的稳定执行：在长达数十轮的交互过程中，模型能够持续追踪任务状态，稳定高效地完成需要多工具链式调用的长期复杂任务。

MagicAgent的技术内核揭秘

高效合成数据生成：MagicAgent通过构建工具依赖图和参数共享图，定义核心的原子计划作为最小语义单元。通过串联、聚合、分组等策略，模型能够高效合成复杂的操作轨迹，有效规避了高成本的沙盒模拟，确保了数据的逻辑严谨性和场景覆盖的广泛性。
创新的两阶段训练范式：第一阶段，模型采用基于新颖性采样的监督微调技术，旨在实现多任务数据的均衡分布。第二阶段，引入统一的多目标奖励函数，将格式的准确性与任务语义的精确性相结合，通过离线GRPO和在线χPO强化学习，逐步提升模型的泛化能力。
χPO算法：探索与利用的艺术：针对稀疏奖励环境，χPO算法设计了层级化的三层机制：在token层面引入熵正则化，鼓励词汇的多样性探索；通过思考-动作分离熵平滑，允许推理阶段存在高不确定性，同时约束决策阶段的鲁棒性；信息瓶颈则用于压缩冗余推理信息，保留对决策至关重要的关键信息，最终实现探索与利用的动态平衡。
MoE的负载均衡艺术：该模型采用了全局批次统计而非微批次约束，使得专家网络能够自然地在任务维度进行分化。辅以z-loss抑制路由logits的极端值，有效解决了多任务训练中专家崩溃和参数闲置的问题，从而实现了推理效率与模型容量的解耦。

MagicAgent的理论探索入口

arXiv技术论文：https://arxiv.org/pdf/2602.19000

MagicAgent的广阔应用前景

赋能智能设备交互：用户仅需自然语言指令，即可让手机完成复杂的智能操作，例如“在美团预订西湖边的酒店，并搜寻附近评价高的餐厅”，MagicAgent将自动分解任务并调用相应的App接口予以实现。
驱动企业流程自动化：在客服场景中，MagicAgent能够处理跨系统的业务流程，如根据用户提供的订单号和退款理由，自动查询库存，核实支付信息，启动退款流程，并及时通知用户。
定制个性化旅行方案：结合用户的出行时间、预算限制以及偏好标签，MagicAgent能够自动生成满足“直飞航班、特定城市停留时长、连续行程”等多元化约束条件的完整旅行计划。
编排多智能体协同任务：作为智能体的中枢节点，MagicAgent能够解析高层指令，例如将“筹备产品发布会”拆解为场地、物料、嘉宾等并行子任务，并分发给专业智能体执行，最终整合各方成果。
实现长程交互式决策：在数十轮的对话交互中，模型能够持续追踪任务状态，妥善处理“先查航班，再订酒店，最后租车”这类具有链式依赖的任务，并根据中间结果动态调整后续计划。

阅读原文