像人一样浏览网页执行任务！腾讯AI lab推出的多模态端到端Agent 一文解读

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：像人一样浏览网页执行任务！腾讯AI lab推出的多模态端到端Agent 一文解读
关键字：任务,解读,腾讯,报告,网站
文章来源：算法邦
内容字数：9847字

内容摘要：

Agent的发展成为了LLM发展的一个热点。只需通过简单指令，Agent帮你完成从输入内容、浏览网页、选择事项、点击、返回等一系列需要执行多步，才能完成的与网页交互的复杂任务。
比如给定任务：“搜索Apple商店，了解iPad智能保护壳Smart Folio的配件，并查看最近的自提点位置（邮政编码90038）。”
下图演示Agent如何按照在线方式逐步与Apple网站进行交互，完成任务。在最后的屏幕截图中，Agent获取了所需的信息，然后选择”ANSWER”动作进行回应和导航的结束。
▲在线网络浏览完整轨迹的屏幕截图
Agent与Apple网站进行交互，并获得答案：“Apple Valley Fair。”
然而，现有的Agent通常用于处理复杂且冗长的HTML文本这一单一输入模态，而忽视了可以将HTML渲染为视觉网页这一要点，并且仅在简化的网络模拟器或静态网络快照中进行评估，很大程度上限制了Agent在现实世界场景中的适用性。
腾讯AI lab提出了一种新的多模态网络Agent——WebVoyager，旨在以端到端的方式在线处理网络任务，即在没有人工介入的情况下从开始到结束自主管

原文链接：像人一样浏览网页执行任务！腾讯AI lab推出的多模态端到端Agent 一文解读