肉包 – 开源的AI手机自动化助手,豆包手机平替
肉包:您的智能手机自动化新伙伴,告别繁琐操作
在智能手机日益普及的今天,我们每天都在与各种应用程序打交道,完成各种任务。然而,繁琐的操作、重复性的点击、跨应用的切换,常常耗费我们宝贵的时间和精力。现在,一款名为“肉包”(Roubao)的开源AI手机自动化助手横空出世,旨在彻底改变您的手机使用体验,成为字节跳动“豆包手机助手”的免费且强大的替代品。
肉包的独特之处
肉包是一款基于先进视觉语言模型(VLM)的AI助手,采用Kotlin原生开发,这意味着它能够直接在您的Android设备上运行,无需借助电脑或进行Root。它巧妙地利用Shizuku框架,获得了系统级的控制能力,从而能够真正理解屏幕上的内容并执行指令。肉包的核心运作模式是“截图-AI分析-执行”的闭环流程,支持“委托AI应用”和“GUI自动化”两种模式,让点外卖、发送消息、规划路线等任务变得轻而易举。
肉包的核心能力解析
- 智慧AI代理:肉包搭载了强大的视觉语言模型,能够“看懂”您的手机屏幕,并能通过自然语言指令来操作手机。它能够智能地规划并执行一系列复杂的任务,让您的手机真正成为您的得力助手。
- 精美的用户界面:肉包的设计秉承了Material 3设计语言,界面美观且易于操作。它支持深色和浅色主题的自适应,动画效果流畅自然,并且提供了完整的中英文双语支持,满足不同用户的需求。
- 高度个性化配置:为了提供最适合您的体验,肉包支持多种顶尖的视觉语言模型,包括阿里云通义千问、OpenAI GPT-4V、Claude等。用户还可以配置自定义API端点,甚至支持本地模型的部署,实现真正的个性化智能。
- 严密的安保机制:您的数据安全是肉包的首要考量。所有API密钥都经过AES-256-GCM加密存储,同时具备敏感页面自动检测和停止机制,确保您的隐私得到充分保护。任务执行全程可视化,并支持随时手动中断,让您拥有完全的控制权。
- Root权限的增强:虽然肉包无需Root即可使用,但当Shizuku以Root权限运行时,它能够解锁更多强大的系统级操作能力,进一步扩展其自动化潜力。
肉包背后的技术引擎
- 双层Agent架构:肉包的强大之处源于其创新的双层Agent架构,灵感来源于Claude Code。这一架构分为Tools层和Skills层。Tools层负责封装如应用搜索、DeepLink跳转、剪贴板操作等基础原子能力;而Skills层则直接面向用户意图,将自然语言指令精准映射到具体的任务流程,实现从“点外卖”到最终执行操作的全链路自动化。
- 循环式自动化流程:肉包采用“截图-分析-执行”的循环式自动化流程,通过Shizuku调用系统级命令来捕获屏幕内容和模拟用户点击。当接收到用户指令时,SkillManager首先进行意图识别。高置信度的任务会直接通过DeepLink委托给专业的AI应用处理。而对于低置信度或更为复杂的任务,则会进入标准的Agent循环:由Manager负责规划,Executor进行决策,Reflector进行反思优化,直至任务圆满完成。
- 原生Android实现:肉包使用Kotlin语言重写了MobileAgent框架,完全运行在Android设备本地,彻底摆脱了对电脑中转的依赖。通过Shizuku获得的ADB级别权限,它能够直接执行截图、点击、滑动等操作,这与传统的Python方案相比,大大简化了使用流程,提供了更便捷的体验。
肉包的GitHub项目地址
- GitHub仓库:https://github.com/Turbo1123/roubao
肉包的应用场景畅想
- 日常琐事自动化:想象一下,只需告诉肉包“帮我点一份麻辣香锅”,或者“明天早上七点叫我起床”,它就能自动完成点餐、设置闹钟等任务,无需您手动翻找应用。
- 跨应用信息整合:肉包能够智能识别屏幕内容,轻松实现“将最后一张照片发送到微博”,或“把这个链接分享到微信”,甚至可以在不同应用间无缝复制粘贴信息,极大地提高了信息处理效率。
- 娱乐内容轻松获取:想听音乐?让肉包自动打开音乐App播放您的每日推荐。想看视频?在B站搜索并播放您想看的视频,或者让它帮您刷短视频、浏览热门内容,尽享便捷的娱乐时光。
- 导航出行无忧:肉包可以直接唤醒高德地图进行路线搜索,帮您轻松打车,或者快速查找附近的美食和商店,让您的出行更加顺畅。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


粤公网安备 44011502001135号