原标题:OpenAI突发Operator!完全自主玩转浏览器,奥特曼:Level 3时代开启
文章来源:科技未来派
内容字数:3437字
OpenAI发布首个智能体Operator:开启AI代理时代
OpenAI近日正式发布了备受期待的AI智能体Operator,标志着AI技术迈向新的里程碑。Operator并非简单的机器人,而是能够完成各种任务的AI代理,它能够自主浏览网页、进行在线购物、预订餐厅等,真正实现了AI从信息处理到行动执行的跨越。
Operator:解放双手的AI助手
Operator 的核心功能在于其自主执行任务的能力。用户只需提供任务指令,Operator 就能自行完成所有步骤,例如根据购物清单自主完成网购,或者根据用户需求预订餐厅。这与以往需要通过API或编程接口控制的AI代理截然不同,Operator 基于文本的思维链进行推理,如同人类一样理解网页内容并进行操作。
在实际操作中,Operator展现了强大的自主学习和适应能力。它可以识别网页元素,点击按钮,填写表单,甚至能够应对网站的登录、支付等环节(需要用户介入完成安全认证)。更令人印象深刻的是,如果遇到访问受限的情况,它能够自行调整策略,例如在搜索中添加关键词来绕过限制。用户还可以自定义指令,例如设置订机票时的首选航空公司,以获得个性化体验。
技术底层:CUA模型的强大实力
Operator 的强大功能源于其底层使用的全新模型——Computer-Using-Agent (CUA)。CUA 结合了 GPT-4 的视觉能力和高级推理强化学习,使其能够与图形用户界面 (GUI) 进行交互。这意味着 Operator 可以“看到”网页内容,并像人类一样使用鼠标和键盘进行操作,无需任何自定义的 API 集成。
CUA 在 WebArena 和 WebVoyager 两个基准测试中均取得了领先成绩 (SOTA),证明了其在网页自动化领域的强大实力。更重要的是,CUA 具备自我纠错能力,能够在遇到问题时自行尝试解决,并在需要帮助时将控制权交还给用户。
OpenAI进入“代理”阶段:Level 3的突破
OpenAI 此前将 AI 的发展划分为五个阶段,Operator 的发布标志着 OpenAI 从 Level 1 (机器人) 迈入 Level 3 (AI 代理) 阶段。这代表着 AI 从简单的对话交互,发展到能够自主执行任务的重大飞跃。OpenAI 预计未来将推出更多智能体,进一步拓展 AI 代理的应用领域。
未来展望:开源与普及
目前,Operator 仅面向 ChatGPT Pro 用户开放,月费高达 200 美元。虽然价格不菲,但其强大的功能和未来发展潜力依然吸引了众多关注。许多网友期待 Operator 能够尽快开源,推动 AI 代理技术的普及和发展,从而让更多人受益于这项突破性技术。
OpenAI 的这一举动无疑将加速 AI 代理技术的成熟和应用,为各行各业带来新的变革。让我们拭目以待,看看未来 AI 代理将如何改变我们的生活和工作方式。
联系作者
文章来源:科技未来派
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破