AIGC动态欢迎阅读
原标题:首个WebAgent在线评测框架和流程数据管理平台来了,GPT-4、Qwen登顶闭源和开源榜首!
关键字:任务,节点,数据,关键,报告
文章来源:夕小瑶科技说
内容字数:0字
内容摘要:
夕小瑶科技说 原创作者 | 潘奕琛、孔德涵、周思达、崔成
在当今科技迅速发展的时代,大型语言模型(Large Language Model,LLM)正以前所未有的速度改变着我们与数字世界的互动方式。基于LLM的智能代理(LLM Agent),从简单的信息搜索到复杂的网页操作,它们正在逐步融入我们的生活。然而,一个关键问题仍然悬而未决:当这些LLM Agent踏入真实的在线网络世界时,它们的表现能否如预期般游刃有余?
现有的评测方法大多停留在静态数据集或模拟网站的层面。这些方法有其价值,但局限性显而易见:静态数据集难以捕捉网页环境的动态变化,如界面更新和内容迭代;而模拟网站则缺乏真实世界的复杂性,未能充分考虑跨站操作,例如使用搜索引擎等操作,这些因素在真实环境中是不可或缺的。
▲WebCanvas框架图。左侧展示的是任务的标注过程,右侧展示的是任务的评估过程。WebCanvas考虑到了在线网络交互中任务路径的非唯一性,“奖杯”代表成功到达每个关键节点后获得的步骤分数。为这一难题,跨越星空科技的iMean AI团队和来自卡内基梅隆大学的合作者提出了一种创新的在线评测框架——WebCan
原文链接:首个WebAgent在线评测框架和流程数据管理平台来了,GPT-4、Qwen登顶闭源和开源榜首!
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189