MMSkills

MMSkills – 上海交大与小红书联合推出的多模态技能框架

MMSkills：赋能通用视觉 Agent 的多模态技能新范式

MMSkills，一项由上海交通大学与小红书联手打造的创新性多模态技能框架，正以前所未有的方式重塑通用视觉 Agent 的能力边界。它旨在将原本局限于纯文本指令的技能，升华为一种融合了文本流程、运行时状态卡片以及多视角关键帧的程序性知识，从而赋予 Agent 更强的理解和执行复杂任务的能力。通过其独创的“分支加载”（Branch Loading）机制，MMSkills 能够高效地在运行时调用视觉证据，显著提升 Agent 在各类图形用户界面（GUI）和游戏环境中的表现，为 Gemini、Qwen、Kimi、GLM 等主流多模态大模型家族带来了稳定而可观的性能飞跃，在 OSWorld、macOSWorld、VAB-Minecraft 等平台上展现出卓越效果。

MMSkills 的核心能力解析

构建多模态技能宝库：MMSkills 的核心在于其能够整合文本指令、实时的状态反馈卡片以及多角度的关键图像帧，形成一套可复用的、具备视觉程序性知识的单元。
自动化技能的提炼：利用公开的非测试交互数据，MMSkills 运用任务聚类、技能规划、泛化合并以及视觉审计等五大步骤，自动挖掘并构建庞大的多模态技能库。
智能的“分支加载”机制：在 Agent 执行任务时，MMSkills 能够按需动态地激活特定的技能分支，而非一次性将所有技能上下文注入，有效避免了视觉证据对主决策流程的潜在干扰。
精密的“视角筛选”能力：基于当前的屏幕截图、过往的操作记录以及状态卡片信息，MMSkills 能够智能地从技能包中挑选出最相关、最能提供视觉支撑的关键帧和观察视角。
结构化的决策指引：一旦技能分支完成视觉信息的对齐与分析，它将向主 Agent 返回一份精炼的决策支持信息，包含“适用性”、“子目标”、“计划”、“禁止项”以及“验证”等关键要素。
跨领域的广泛适用性：MMSkills 不仅能够胜任 GUI 桌面自动化任务，还能驾驭复杂的视觉游戏挑战，例如在 Minecraft 中进行策略性操作，或是在 Super Mario Bros 等游戏中实现跨场景的技能迁移与复用。

MMSkills 的技术基石

多模态技能单元的设计：MMSkills 将传统的文本技能描述扩展为一个完整的单元，包含 SKILL.md 文本流程、State_cards.json 状态卡片以及 Images 文件夹下的多视角关键帧。这使得 Agent 能够根据当前的视觉状态，精确判断何时启用某个技能，以及如何验证技能的执行效果。
自动化技能生成流程：通过任务聚类、簇内技能规划、技能合并与泛化、文本草案生成、以及最后的视觉对齐与审计这五个环节，MMSkills 能够从海量的原始交互轨迹中自动提取出具有诊断价值的状态知识，而非简单地存储原始演示数据。
“分支加载”的运行时动态：当主 Agent 预判某个技能可能对当前任务有所帮助时，它会触发一个临时的技能分支。该分支随后执行“视角筛选”，选择关键的视觉状态进行分析，再由“分支规划”模块将这些视觉证据与当前 Agent 所处的环境进行精确匹配，最终返回压缩后的结构化决策支持。

扫描二维码关注微信公众号，回复“开源”，即可加入AI开源项目交流群，与同行一起探索前沿技术。

如何巧妙运用 MMSkills

获取丰富的技能库：您可以直接访问 Hugging Face 数据集，下载预先生成的多模态技能包，为您的 Agent 提供强大的技能支持。
无缝集成至主 Agent：将 MMSkills 的“分支加载”机制巧妙地嵌入到您现有视觉 Agent 的推理流程中，实现能力的快速升级。
精准触发技能调用：当主 Agent 判断当前任务与某个技能高度匹配时，便可发起“分支加载”请求，启动相应的技能模块。
接收结构化行动指南：临时技能分支在完成视觉证据的对齐后，将以结构化的形式向主 Agent 返回“适用性”、“子目标”、“计划”等关键决策信息。
执行与验证的闭环：主 Agent 依据接收到的指导信息执行相应动作，并通过状态卡片对任务的进展情况进行实时验证。

MMSkills 的独特优势

敏锐的状态感知能力：技能包内嵌的运行时状态卡片，让 Agent 能够准确判断当前界面是否满足技能执行的前提条件，避免盲目操作。
精准的视觉证据对齐：多视角关键帧的设计，帮助 Agent 将抽象的文本指令与真实的视觉画面进行有效锚定，显著降低误操作的风险。
高效的上下文管理：通过“分支加载”机制，避免了将完整的技能包一次性注入主上下文，有效防止了参考图像对当前决策的干扰。
对小型模型的显著增益：MMSkills 作为外部的多模态程序性知识，在 Qwen3-VL-8B 等规模较小的模型上，能够带来超过一倍的性能提升，有效弥补了其内部先验知识的不足。
优化 Agent 的行为模式：MMSkills 能够显著减少 Agent 的无效点击和重复操作，使其从被动的试错探索模式，转变为更主动、更具状态感知能力的执行模式。

MMSkills 的项目资源

官方项目网站：https://zkangning.github.io/MMSkills_for_Visual_Agents/
GitHub 代码仓库：https://github.com/zkangning/MMSkills_for_Visual_Agents
HuggingFace 模型库：https://huggingface.co/datasets/zhangkangning/mmskills
技术论文（arXiv）：https://arxiv.org/pdf/2605.13527

MMSkills 与同类技术的深度对比

比较维度	MMSkills	纯文本技能
技能表示形式	文本流程 + 状态卡片 + 多视角关键帧	纯文本步骤或动作图
状态判断依据	结合运行时状态卡片与实时截图判断界面状态	仅依赖文本描述推断，易忽视实际界面状态
运行时加载方式	Branch Loading 机制，选择性加载视觉证据	通常将完整文本技能直接注入主上下文
上下文污染风险	通过 View Selection 过滤，避免参考图片干扰主 Agent	文本无图片污染，但缺乏视觉 grounding
典型失败场景举例	能准确识别当前激活的工作表、按钮可用状态等	易在错误工作表创建图表，或误点已禁用的按钮
OSWorld 整体性能表现	Gemini 3.1 Pro: 50.11%；Qwen3-VL-235B: 39.17%	Gemini 3.1 Pro: 40.76%；Qwen3-VL-235B: 28.57%

MMSkills 的广泛应用前景

桌面 GUI 自动化领域：在 Ubuntu 或 macOS 环境下，MMSkills 能够帮助 Agent 完成跨应用程序的复杂操作，例如在 LibreOffice 中精确创建图表，或对文件权限进行精细化管理。
游戏 AI 智能体开发：在 Minecraft 的生存模式中，MMSkills 可以支持 Agent 进行长期的物品获取与合成规划；在平台跳跃类游戏中，则能基于视觉状态做出智能决策。
企业 RPA 系统的增强：为现有的机器人流程自动化（RPA）系统注入 MMSkills 的视觉状态感知能力，将极大提升其在跨软件操作过程中的稳定性和可靠性。
视觉任务的教学与辅助：MMSkills 能够将人工操作的宝贵经验沉淀为可复用的多模态技能库，为培训其他 Agent 或辅助 Agent 学习提供强大的支持。

阅读原文