像人一样浏览网页执行任务!腾讯AI lab推出的多模态端到端Agent 一文解读

AIGC动态8个月前发布 算法邦
24 0 0

像人一样浏览网页执行任务!腾讯AI lab推出的多模态端到端Agent 一文解读

AIGC动态欢迎阅读

原标题:像人一样浏览网页执行任务腾讯AI lab推出的多模态端到端Agent 一文解读
关键字:任务,解读,腾讯,报告,网站
文章来源:算法邦
内容字数:9847字

内容摘要:


Agent的发展成为了LLM发展的一个热点。只需通过简单指令,Agent帮你完成从输入内容、浏览网页、选择事项、点击、返回等一系列需要执行多步,才能完成的与网页交互的复杂任务。
比如给定任务:“搜索Apple商店,了解iPad智能保护壳Smart Folio的配件, 并查看最近的自提点位置 (邮政编码90038)。”
下图演示Agent如何按照在线方式逐步与Apple网站进行交互,完成任务。在最后的屏幕截图中,Agent获取了所需的信息,然后选择”ANSWER”动作进行回应和导航的结束。
▲在线网络浏览完整轨迹的屏幕截图
Agent与Apple网站进行交互, 并获得答案:“Apple Valley Fair。”
然而,现有的Agent通常用于处理复杂且冗长的HTML文本这一单一输入模态,而忽视了可以将HTML渲染为视觉网页这一要点,并且仅在简化的网络模拟器或静态网络快照中进行评估,很大程度上限制了Agent在现实世界场景中的适用性。
腾讯AI lab提出了一种新的多模态网络Agent——WebVoyager,旨在以端到端的方式在线处理网络任务,即在没有人工介入的情况下从开始到结束自主管


原文链接:像人一样浏览网页执行任务!腾讯AI lab推出的多模态端到端Agent 一文解读

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:「算法邦」,隶属于智猩猩,关注大模型、生成式AI、计算机视觉三大领域的研究与开发,提供技术文章、讲座、在线研讨会。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...