抢先OpenAI“虚拟员工”!清华复旦斯坦福联手,让Agent接管电脑帮你工作

“Operator”被截胡了

抢先OpenAI“虚拟员工”!清华复旦斯坦福联手,让Agent接管电脑帮你工作

原标题:抢先OpenAI“虚拟员工”!清华复旦斯坦福联手,让Agent接管电脑帮你工作
文章来源:量子位
内容字数:5958字

清华、复旦、斯坦福学者开源Eko框架:抢先OpenAI“Operator”,打造生产级虚拟员工

近日,清华大学、复旦大学和斯坦福大学的研究者联合发布了一个名为Eko的Agent开发框架,其功能与OpenAI即将发布的“Operator”高度相似,甚至抢先一步开源。Eko允许开发者使用简洁的代码和自然语言快速构建可用于生产环境的“虚拟员工”Agent,能够接管用户的电脑和浏览器,自动完成各种任务。

1. Eko框架的核心技术创新

Eko的成功主要基于以下三项核心技术创新:

  1. 混合智能体表示 (Mixed Agentic representation):Eko无缝结合了自然语言(用于高层次设计)和程序语言(用于低层次实现),简化了Agent的开发流程。

  2. 跨平台Agent框架:Eko采用环境感知架构,支持同一套框架和编程语言在浏览器、电脑和浏览器插件等多种环境下运行。

  3. 生产级干预机制:不同于现有Agent框架普遍强调的自主性,Eko提供了显性的生产级干预机制,允许人类随时中断和调整智能体的工作流,确保安全性和可控性。

2. Eko的跨平台能力与环境感知架构

Eko的跨平台能力由其环境感知架构实现,该架构包含三个关键层次:

  1. 通用核心 (Universal Core):提供与环境无关的基本功能,如工作流管理、工具注册管理、大语言模型(LLM)集成和钩子系统。

  2. 环境特定工具 (Environment-Specific Tools):为不同环境(浏览器扩展、Web环境、Node.js环境等)提供优化的工具集。

  3. 环境桥接 (Environment Bridge):负责环境检测、工具注册、资源管理和安全控制,确保不同平台间的顺利交互。

Eko通过自动工具注册功能(例如`loadTools()`),实现开发者在不同环境间的无缝切换。

3. Eko的层次化规划和优化机制

Eko采用层次化感知框架,将任务拆解为规划层(Planning layer)和执行层(Execution layer)。规划层将用户需求(自然语言或代码)和工具集拆解成领域特定语言(DSL)表示的任务图,该任务图由LLM一次性生成。执行层则根据任务图调用LLM生成具体的执行行为和工具调用。Eko还具备多步合并优化机制,可以将多次LLM调用合并成一次,提高效率。

4. Eko的视觉-交互要素联合感知 (VIEP)

Eko的VIEP框架是一种新颖的浏览器感知解决方案,通过结合视觉识别和元素上下文信息,提高了在复杂网页中任务的精度和效率。VIEP通过提取网页交互元素并映射到DSL,生成高效的伪HTML代码,简化了元素表示,并显著降低了资源消耗。

5. Eko的生产级可干预机制与钩子系统

Eko提供三种层级的钩子(Workflow Hooks、Subtask Hooks、Tool Hooks),允许开发者在工作流的不同阶段进行监控、调整和干预,提高自动化系统的精度和效率,并确保业务流程的顺畅。

总而言之,Eko框架凭借其创新技术和开源特性,为构建生产级虚拟员工提供了强大的工具,并有望在自动化领域产生重大影响。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止