Mano-P 1.0

Mano-P 1.0 – 明略科技开源的 GUI-VLA 智能体模型

Mano-P 1.0：一款颠覆性的纯视觉驱动GUI智能体

由明略科技倾力打造并开源的Mano-P 1.0，是一款性的GUI-VLA（图形用户界面-视觉语言动作）智能体模型。它摒弃了传统依赖API的模式，通过纯粹的视觉感知能力，可以直接驾驭各类桌面软件及网页界面，为自动化操作带来了前所未有的度。该模型提供功能强大的72B完整版和轻量级的4B量化版，尤其值得一提的是，它能够直接在配备Apple M4芯片的设备上本地部署，从而实现数据“零上云”的最高级别隐私保护，确保信息安全隔离。

Mano-P 1.0的问世，标志着在GUI自动化领域的一次重大突破。它不仅在OSWorld等13项国际权威基准测试中斩获了SOTA（State-of-the-Art）的优异成绩，更以极具吸引力的Apache 2.0协议进行开源，为商业应用和二次开发提供了广阔的空间。

Mano-P 1.0的核心亮点

全链路GUI掌控能力：Mano-P 1.0集感知、理解、规划、执行与验证于一身，能够精确地执行点击、文本输入、窗口切换等精细操作，并通过视觉反馈闭环验证任务的完成情况，实现对桌面软件、网页界面乃至复杂图形化工作流的全方位操控。
纯粹的视觉理解：该模型无需依赖任何底层API、CDP协议或HTML解析。它通过像素级的深度视觉理解，直接“读懂”屏幕上的所有内容，彻底打破了传统浏览器生态的限制。这意味着，Mano-P 1.0能够轻松应对非标准应用、3D软件以及跨操作系统的复杂协作场景。
端侧本地部署的隐私保障：Mano-P 1.0支持在Apple M4芯片设备（如Mac mini、MacBook）上实现本地运行，甚至可以通过USB 4.0连接算力棒来扩展其能力。所有数据均在本地处理，绝不上云，实现了物理隔离级别的隐私安全。即使在无网络环境下，它也能自主规划并执行复杂的长周期任务。
Agent生态的强大赋能：作为一款“Skill”，Mano-P 1.0能够无缝集成到OpenClaw、Claude Code等AI Agent框架中，为其提供强大的GUI执行能力。这有效解决了AI Agent在处理复杂工作流时，因缺乏直接界面交互能力而产生的瓶颈，极大地提升了自动化效率。

Mano-P 1.0的技术基石

GUI-VLA架构的创新：模型的核心在于其视觉-语言-动作（VLA）多模态框架。它直接解析屏幕的像素信息，并结合自然语言指令，输出精准的操作坐标和动作。这种方法绕过了API和HTML解析的限制，实现了跨平台、跨应用的图形界面操控。
三阶段渐进式训练：Mano-P 1.0的训练过程采用了先进的三阶段策略。首先通过监督微调建立基础能力，随后利用离线强化学习优化策略，最终通过在线强化学习实现实时环境反馈和动态纠错，形成一个从感知到执行的完整闭环优化体系。
GSPruning剪枝技术加速：为了提升效率，模型采用了专有的视觉Token剪枝技术，有效压缩了冗余的视觉信息。结合4-bit量化方案，使得4B模型在M4芯片上能达到476 tokens/s的推理速度，内存占用更是低至4.3GB。
端云双版本协同：72B的完整模型适用于云端的高性能计算需求，处理更为复杂的任务。而4B的量化模型则专注于端侧本地部署，配合其强大的长上下文理解能力，即使在离线状态下也能自主完成任务规划和多步决策。

如何开启Mano-P 1.0的自动化之旅

获取源代码：访问Mano-P的GitHub仓库，克隆项目源码和详细文档。
选择集成模式：目前，Mano-P 1.0的Skill已适配OpenClaw或Claude Code这两个Agent框架。
配置集成：将Mano-P Skill接入您选择的目标Agent，即可赋予其跨应用GUI的感知和自动化操作能力。
本地部署体验：在配备Apple M4芯片及32GB以上内存的设备上，运行4B量化模型，亲身体验数据零上云的离线操作模式。
开始自动化：通过自然语言指令，驱动AI自动解析屏幕内容，完成点击、输入、窗口切换等一系列复杂工作流。

Mano-P 1.0的关键信息与使用门槛

产品定位：Mano-P 1.0是一款开源的GUI-VLA智能体模型，以纯视觉理解为核心，直接操控桌面软件和网页界面，无需依赖API。
开源协议：采用Apache 2.0协议，代码完全开源可审计，并支持商业使用及二次开发。
模型版本：提供72B完整版（云端高性能）和4B量化版（端侧本地部署）两种版本。
性能表现：在OSWorld、ScreenSpot-V2等13个国际权威基准测试中达到SOTA水平，OSWorld任务成功率高达58.2%。
核心优势：纯视觉驱动打破了传统自动化操作的界限，能够处理跨应用工作流和复杂图形界面。
硬件要求：本地部署需Apple M4芯片及以上设备，至少32GB内存，或通过USB 4.0连接Mano-P算力棒。

Mano-P 1.0的独特优势

纯粹的视觉驱动：无视API、HTML或底层协议的限制，直接通过像素级理解操控任何桌面软件及3D应用，彻底革新自动化边界。
本地端侧部署的隐私保护：支持Apple M4芯片设备本地运行，4B量化模型仅需4.3GB内存，实现数据零上云的最高级别隐私安全。
离线自主任务执行：在无网络环境下，模型能够自主规划并执行复杂的长周期任务，具备实时决策与自我纠错能力。
业界领先的性能标杆：72B版本在OSWorld等13项国际基准测试中取得SOTA成绩，OSWorld任务成功率58.2%，较同类模型领先13.2个百分点。
开放的开源生态：Apache 2.0协议确保了代码的完全开放与可审计性，支持商业应用与二次开发，并能无缝集成至OpenClaw、Claude Code等Agent生态。

Mano-P 1.0的项目链接

GitHub仓库：https://github.com/Mininglamp-AI/Mano-P

Mano-P 1.0与同类竞品对比

对比维度	Mano-P 1.0	OpenCUA-72B	Claude Computer Use
开发方	明略科技	开源社区	Anthropic
模型版本	72B 完整版 / 4B 量化版	72B	Claude 3.5 Sonnet（闭源）
开源协议	Apache 2.0（可商用）	开源	闭源
OSWorld 成绩	58.2%	45.0%	未公开/约 40% 区间
部署方式	本地端侧 + 云端	本地 GPU / 云端	仅云端 API
端侧硬件要求	Apple M4 芯片，32GB 内存，4.3GB 峰值显存	需高配 GPU（如 A100），无专用量化版	不支持本地部署
离线能力	支持长任务离线自主执行	支持离线	必须联网
视觉方案	纯视觉理解（像素级）	纯视觉	视觉 + 文本混合
集成方式	Skill 接入 OpenClaw/Claude Code	需自行开发接口	仅限 Claude Code 生态