Agent 交互新体验!
原标题:被 AutoGLM 秀一脸,这才是 Agent 该有的样子
文章来源:特工宇宙
内容字数:3744字
AI Agent的崛起:智谱AutoGLM的全新体验
近年来,AI Agent的概念逐渐深入人心,但具体的定义却仍显模糊。我们曾多次讨论Agent的含义,其中,Langchain提出的定义尤为引人注目:Agent是利用大语言模型(LLM)来决定应用的控制流系统。与传统的AI助手相比,Agent不仅能响应用户的询问,还能根据用户需求主动进行反思、规划和执行任务。今天,智谱在其“Agent互动新体验”OpenDay上发布的升级版AutoGLM,正是这一概念的生动体现。
AutoGLM的智能进化
AutoGLM是智谱在上个月推出的“住在手机里的AI管家”,它基于自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”,成为第一个产品化的AI Agent。用户可以通过文字或语音指令,让AI Agent模拟人类操作手机,实现从表达到执行的转变。
在经过一个月的优化后,智谱对AutoGLM进行了全面升级,带来了更智能的使用体验。这次升级主要包括以下几个方面:
- 复杂步骤与循环操作:能够自主执行超过50步的无打断操作,同时支持操作流程的复现。
- 跨App操作:具备更强的泛化能力,支持复杂任务在不同应用间的操作。
- 记忆与快捷指令:在用户授权下,AutoGLM能记住过往选择,并在特定指令触发时自动行动。
- AI主动决策:对于模糊的用户指令,能够主动帮助用户做出决策。
便捷的生活助手
想象一下,用户在享受休闲时光时,只需口头提要求,AI就能控制手机完成各种任务。这种便捷的体验让人十分兴奋。我第一时间申请了内测,并对AutoGLM进行了测试。
例如,当我在看电视时遇到不熟悉的网红或梗,只需命令AutoGLM帮我打开某音关注相关内容。又比如,我可以让它打开某团,方便我快速点常吃的烧烤,节省宝贵的时间。此外,想在淘宝上购买键盘,只需简单的语音指令,AI就能直达购买页面,避免繁琐的广告干扰。
强大的功能与应用
除了上述功能,AutoGLM还具备更多能力。它通过自然语言指令,实现复杂任务的快速执行,体现了AI Agent强大的任务规划能力和屏幕界面信息理解能力。在实际使用中,用户可能会遇到意想不到的情况,此时Agent可以运用判断与自我纠错能力,并与用户持续互动,精准完成操作。
智谱还推出了AutoGLM-Web,能够帮助用户在网页上进行站内检索和多链接总结,进一步提升工作效率。此外,量子速读和量子速写等实用工具,使得用户在各大平台上进行信息获取和内容创作变得更加高效。
展望未来:智能化的全新生态
智谱还推出了GLM-PC,这是一款可以操作PC的桌面应用。用户仅需一句话即可快速执行复杂任务,充分展现了基于CogAgent模型的视觉理解和任务规划能力。随着科技的不断发展,AI Agent的形态和功能将不断演进,未来将实现更高层次的自我学习能力。
无论是在手机、Web还是PC端,智谱正在构建以大模型为中心的通用计算系统GLM-OS。AutoGLM和CogAgent的目标是模仿人类的Plan-Do-Check-Act循环,实现自我反馈与提升。我们相信,随着大模型技术的持续推进,AI Agent对人机交互的变革才刚刚开始!
联系作者
文章来源:特工宇宙
作者微信:
作者简介:Agent Universe,专注于智能体的AI科技媒体。