Mano-P 1.0

AI工具13小时前更新 AI工具集
0 0 0

Mano-P 1.0 – 明略科技开源的 GUI-VLA 智能体模型

Mano-P 1.0:一款颠覆性的纯视觉驱动GUI智能体

由明略科技倾力打造并开源的Mano-P 1.0,是一款性的GUI-VLA(图形用户界面-视觉语言动作)智能体模型。它摒弃了传统依赖API的模式,通过纯粹的视觉感知能力,可以直接驾驭各类桌面软件及网页界面,为自动化操作带来了前所未有的度。该模型提供功能强大的72B完整版和轻量级的4B量化版,尤其值得一提的是,它能够直接在配备Apple M4芯片的设备上本地部署,从而实现数据“零上云”的最高级别隐私保护,确保信息安全隔离。

Mano-P 1.0的问世,标志着在GUI自动化领域的一次重大突破。它不仅在OSWorld等13项国际权威基准测试中斩获了SOTA(State-of-the-Art)的优异成绩,更以极具吸引力的Apache 2.0协议进行开源,为商业应用和二次开发提供了广阔的空间。

Mano-P 1.0的核心亮点

  • 全链路GUI掌控能力:Mano-P 1.0集感知、理解、规划、执行与验证于一身,能够精确地执行点击、文本输入、窗口切换等精细操作,并通过视觉反馈闭环验证任务的完成情况,实现对桌面软件、网页界面乃至复杂图形化工作流的全方位操控。
  • 纯粹的视觉理解:该模型无需依赖任何底层API、CDP协议或HTML解析。它通过像素级的深度视觉理解,直接“读懂”屏幕上的所有内容,彻底打破了传统浏览器生态的限制。这意味着,Mano-P 1.0能够轻松应对非标准应用、3D软件以及跨操作系统的复杂协作场景。
  • 端侧本地部署的隐私保障:Mano-P 1.0支持在Apple M4芯片设备(如Mac mini、MacBook)上实现本地运行,甚至可以通过USB 4.0连接算力棒来扩展其能力。所有数据均在本地处理,绝不上云,实现了物理隔离级别的隐私安全。即使在无网络环境下,它也能自主规划并执行复杂的长周期任务。
  • Agent生态的强大赋能:作为一款“Skill”,Mano-P 1.0能够无缝集成到OpenClaw、Claude Code等AI Agent框架中,为其提供强大的GUI执行能力。这有效解决了AI Agent在处理复杂工作流时,因缺乏直接界面交互能力而产生的瓶颈,极大地提升了自动化效率。

Mano-P 1.0的技术基石

  • GUI-VLA架构的创新:模型的核心在于其视觉-语言-动作(VLA)多模态框架。它直接解析屏幕的像素信息,并结合自然语言指令,输出精准的操作坐标和动作。这种方法绕过了API和HTML解析的限制,实现了跨平台、跨应用的图形界面操控。
  • 三阶段渐进式训练:Mano-P 1.0的训练过程采用了先进的三阶段策略。首先通过监督微调建立基础能力,随后利用离线强化学习优化策略,最终通过在线强化学习实现实时环境反馈和动态纠错,形成一个从感知到执行的完整闭环优化体系。
  • GSPruning剪枝技术加速:为了提升效率,模型采用了专有的视觉Token剪枝技术,有效压缩了冗余的视觉信息。结合4-bit量化方案,使得4B模型在M4芯片上能达到476 tokens/s的推理速度,内存占用更是低至4.3GB。
  • 端云双版本协同:72B的完整模型适用于云端的高性能计算需求,处理更为复杂的任务。而4B的量化模型则专注于端侧本地部署,配合其强大的长上下文理解能力,即使在离线状态下也能自主完成任务规划和多步决策。

如何开启Mano-P 1.0的自动化之旅

  • 获取源代码:访问Mano-P的GitHub仓库,克隆项目源码和详细文档。
  • 选择集成模式:目前,Mano-P 1.0的Skill已适配OpenClaw或Claude Code这两个Agent框架。
  • 配置集成:将Mano-P Skill接入您选择的目标Agent,即可赋予其跨应用GUI的感知和自动化操作能力。
  • 本地部署体验:在配备Apple M4芯片及32GB以上内存的设备上,运行4B量化模型,亲身体验数据零上云的离线操作模式。
  • 开始自动化:通过自然语言指令,驱动AI自动解析屏幕内容,完成点击、输入、窗口切换等一系列复杂工作流。

Mano-P 1.0的关键信息与使用门槛

  • 产品定位:Mano-P 1.0是一款开源的GUI-VLA智能体模型,以纯视觉理解为核心,直接操控桌面软件和网页界面,无需依赖API。
  • 开源协议:采用Apache 2.0协议,代码完全开源可审计,并支持商业使用及二次开发。
  • 模型版本:提供72B完整版(云端高性能)和4B量化版(端侧本地部署)两种版本。
  • 性能表现:在OSWorld、ScreenSpot-V2等13个国际权威基准测试中达到SOTA水平,OSWorld任务成功率高达58.2%。
  • 核心优势:纯视觉驱动打破了传统自动化操作的界限,能够处理跨应用工作流和复杂图形界面。
  • 硬件要求:本地部署需Apple M4芯片及以上设备,至少32GB内存,或通过USB 4.0连接Mano-P算力棒。

Mano-P 1.0的独特优势

  • 纯粹的视觉驱动:无视API、HTML或底层协议的限制,直接通过像素级理解操控任何桌面软件及3D应用,彻底革新自动化边界。
  • 本地端侧部署的隐私保护:支持Apple M4芯片设备本地运行,4B量化模型仅需4.3GB内存,实现数据零上云的最高级别隐私安全。
  • 离线自主任务执行:在无网络环境下,模型能够自主规划并执行复杂的长周期任务,具备实时决策与自我纠错能力。
  • 业界领先的性能标杆:72B版本在OSWorld等13项国际基准测试中取得SOTA成绩,OSWorld任务成功率58.2%,较同类模型领先13.2个百分点。
  • 开放的开源生态:Apache 2.0协议确保了代码的完全开放与可审计性,支持商业应用与二次开发,并能无缝集成至OpenClaw、Claude Code等Agent生态。

Mano-P 1.0的项目链接

  • GitHub仓库:https://github.com/Mininglamp-AI/Mano-P

Mano-P 1.0与同类竞品对比

对比维度Mano-P 1.0OpenCUA-72BClaude Computer Use
开发方明略科技开源社区Anthropic
模型版本72B 完整版 / 4B 量化版72BClaude 3.5 Sonnet(闭源)
开源协议Apache 2.0(可商用)开源闭源
OSWorld 成绩58.2%45.0%未公开/约 40% 区间
部署方式本地端侧 + 云端本地 GPU / 云端仅云端 API
端侧硬件要求Apple M4 芯片,32GB 内存,4.3GB 峰值显存需高配 GPU(如 A100),无专用量化版不支持本地部署
离线能力支持长任务离线自主执行支持离线必须联网
视觉方案纯视觉理解(像素级)纯视觉视觉 + 文本混合
集成方式Skill 接入 OpenClaw/Claude Code需自行开发接口仅限 Claude Code 生态

Mano-P 1.0的应用场景展望

  • 打破应用壁垒的办公自动化:实现Excel、ERP、邮件客户端之间的数据无缝迁移,自动化报表生成、邮件分发等跨系统办公流程。
  • 专业软件的智能操控:直接驾驭Photoshop、CAD、3D建模等专业设计软件,以及那些缺乏API接口的遗留系统。
  • 端到端的软件测试:自动化执行UI界面点击、表单填写、结果验证等操作,实现无人工干预的全流程应用测试。
  • 高度敏感业务的隐理:在本地运行处理财务报表、医疗记录等敏感数据,确保信息不出本机,满足严格的合规性要求。
  • 无网络环境下的自动化:在离线状态下,自主完成数据录入、文档处理、系统运维等长周期复杂任务。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...