GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划

AIGC动态8个月前发布 新智元
7 0 0

GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划

AIGC动态欢迎阅读

原标题:GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划
关键字:智能,计划,研究者,工具,信息
文章来源:新智元
内容字数:12312字

内容摘要:


新智元报道编辑:编辑部
【新智元导读】最近,复旦、俄亥俄州立大学、Meta和宾夕法尼亚州立大学的研究者发现,GPT-4 Agent规划旅行只有0.6%成功率!离在人类复杂环境中做出规划,智能体还任重道远。AI智能体,是目前学界炙手可热的前沿话题,被众多专家视为大模型发展的下一个方向。
然而,最近复旦、俄亥俄州立大学、宾夕法尼亚州立大学、Meta AI的研究者们发现,AI智能体在现实世界的规划能力还很差。
他们对GPT-4 Turbo、Gemini Pro、Mixtral 8x7B等进行了全面评估,发现这些大模型智能体全部翻车了!即使是表现最好的,成功率也仅有0.6%。
对于大模型规划能力和智能体感兴趣的研究人员,以后又有一个新榜可以刷了。(手动狗头)
项目主页:https://osu-nlp-group.github.io/TravelPlanner/
看来,让智能体在现实世界中完成复杂规划任务的那一天,还远着呢。
LLM智能体,能规划旅行吗规划,是被视为人类智能的一大特征,它是建立在多种能力之上的进化成果,包括:
– 迭代使用各种工具来收集信息并做决策;
– 为了深入思考而在工作记


原文链接:GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...