今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent

今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent

AIGC动态欢迎阅读

原标题:今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务腾讯AI lab发布多模态端到端Agent
关键字:解读,任务,报告,腾讯,网站
文章来源:夕小瑶科技说
内容字数:10123字

内容摘要:


‍夕小瑶科技说 原创作者 | 谢年年Agent的发展成为了LLM发展的一个热点。只需通过简单指令,Agent帮你完成从输入内容、浏览网页、选择事项、点击、返回等一系列需要执行多步,才能完成的与网页交互的复杂任务。
比如给定任务:“搜索Apple商店,了解iPad智能保护壳Smart Folio的配件, 并查看最近的自提点位置 (邮政编码90038)。”
下图演示Agent如何按照在线方式逐步与Apple网站进行交互,完成任务。在最后的屏幕截图中,Agent获取了所需的信息,然后选择”ANSWER”动作进行回应和导航的结束。
▲在线网络浏览完整轨迹的屏幕截图Agent与Apple网站进行交互, 并获得答案:“Apple Valley Fair。”
然而,现有的Agent通常用于处理复杂且冗长的HTML文本这一单一输入模态,而忽视了可以将HTML渲染为视觉网页这一要点,并且仅在简化的网络模拟器或静态网络快照中进行评估,很大程度上限制了Agent在现实世界场景中的适用性。
腾讯AI lab提出了一种新的多模态网络Agent——WebVoyager,旨在以端到端的方式在线处理网络任务,即在没有


原文链接:今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI一线开发者、互联网中高管和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备行业嗅觉与报道深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...