MagicAgent

MagicAgent – 荣耀联合复旦推出的智能体基础模型

荣耀携手复旦大学,倾力打造的划时代智能体基础模型——MagicAgent,以其卓越的32B密集架构与30B-A3B MoE架构,在百亿参数级别实现了性能的巅峰突破。

MagicAgent:智能体的革新之作

MagicAgent,荣耀与复旦大学的智慧结晶,是一款颠覆性的智能体基础模型。它凭借32B密集架构和30B-A3B MoE架构的强大支撑,在百亿参数模型领域树立了性能标杆。该模型构建了一个精巧的轻量级合成数据框架,能够全面覆盖任务分解、工具规划、多约束调度等五大核心场景。通过“SFT+多目标强化学习”的两阶段训练策略,MagicAgent有效解决了多任务间的冲突问题。尤为值得一提的是,其创新提出的χPO算法,巧妙地平衡了探索与利用的博弈,使得模型在复杂环境中展现出非凡的学习能力。在Worfbench、BFCL-v3等权威基准测试中,MagicAgent的表现已超越GPT-5.2、Kimi-K2等千亿级模型,成为业界首个实现全场景泛化规划的智能体模型,并已成功部署于荣耀Magic系列手机,赋能用户体验的全新升级。

MagicAgent的核心能力剖析

  • 精细化任务拆解:MagicAgent能够将用户复杂模糊的指令,精准地分解为一系列可执行的子任务序列,并能智能处理任务间的多重依赖关系,实现高效的并行处理。
  • 智能工具调用与规划:模型具备动态调用外部API和工具的能力,通过“推理-行动”的循环机制,从容应对需要实时信息或外部能力的复杂任务。
  • 多重约束下的智能调度:面对带有时间、空间、资源等多重限制的计划制定任务,MagicAgent能够游刃有余地完成,例如制定详尽的行程安排或高效的会议日程。
  • 程序逻辑的精妙编排:MagicAgent能够深刻理解并执行包含条件分支、循环结构的工作流,严密维护任务间的复杂依赖逻辑。
  • 长程任务的稳定执行:在长达数十轮的交互过程中,模型能够持续追踪任务状态,稳定高效地完成需要多工具链式调用的长期复杂任务。

MagicAgent的技术内核揭秘

  • 高效合成数据生成:MagicAgent通过构建工具依赖图和参数共享图,定义核心的原子计划作为最小语义单元。通过串联、聚合、分组等策略,模型能够高效合成复杂的操作轨迹,有效规避了高成本的沙盒模拟,确保了数据的逻辑严谨性和场景覆盖的广泛性。
  • 创新的两阶段训练范式:第一阶段,模型采用基于新颖性采样的监督微调技术,旨在实现多任务数据的均衡分布。第二阶段,引入统一的多目标奖励函数,将格式的准确性与任务语义的精确性相结合,通过离线GRPO和在线χPO强化学习,逐步提升模型的泛化能力。
  • χPO算法:探索与利用的艺术:针对稀疏奖励环境,χPO算法设计了层级化的三层机制:在token层面引入熵正则化,鼓励词汇的多样性探索;通过思考-动作分离熵平滑,允许推理阶段存在高不确定性,同时约束决策阶段的鲁棒性;信息瓶颈则用于压缩冗余推理信息,保留对决策至关重要的关键信息,最终实现探索与利用的动态平衡。
  • MoE的负载均衡艺术:该模型采用了全局批次统计而非微批次约束,使得专家网络能够自然地在任务维度进行分化。辅以z-loss抑制路由logits的极端值,有效解决了多任务训练中专家崩溃和参数闲置的问题,从而实现了推理效率与模型容量的解耦。

MagicAgent的理论探索入口

MagicAgent的广阔应用前景

  • 赋能智能设备交互:用户仅需自然语言指令,即可让手机完成复杂的智能操作,例如“在美团预订西湖边的酒店,并搜寻附近评价高的餐厅”,MagicAgent将自动分解任务并调用相应的App接口予以实现。
  • 驱动企业流程自动化:在客服场景中,MagicAgent能够处理跨系统的业务流程,如根据用户提供的订单号和退款理由,自动查询库存,核实支付信息,启动退款流程,并及时通知用户。
  • 定制个性化旅行方案:结合用户的出行时间、预算限制以及偏好标签,MagicAgent能够自动生成满足“直飞航班、特定城市停留时长、连续行程”等多元化约束条件的完整旅行计划。
  • 编排多智能体协同任务:作为智能体的中枢节点,MagicAgent能够解析高层指令,例如将“筹备产品发布会”拆解为场地、物料、嘉宾等并行子任务,并分发给专业智能体执行,最终整合各方成果。
  • 实现长程交互式决策:在数十轮的对话交互中,模型能够持续追踪任务状态,妥善处理“先查航班,再订酒店,最后租车”这类具有链式依赖的任务,并根据中间结果动态调整后续计划。
阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...