GPT-4/Gemini大翻车，做旅行攻略成功率≈0%！复旦OSU等华人团队：Agent不会复杂任务规划

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：GPT-4/Gemini大翻车，做旅行攻略成功率≈0%！复旦OSU等华人团队：Agent不会复杂任务规划
关键字：智能,计划,研究者,工具,信息
文章来源：新智元
内容字数：12312字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】最近，复旦、俄亥俄州立大学、Meta和宾夕法尼亚州立大学的研究者发现，GPT-4 Agent规划旅行只有0.6%成功率！离在人类复杂环境中做出规划，智能体还任重道远。AI智能体，是目前学界炙手可热的前沿话题，被众多专家视为大模型发展的下一个方向。
然而，最近复旦、俄亥俄州立大学、宾夕法尼亚州立大学、Meta AI的研究者们发现，AI智能体在现实世界的规划能力还很差。
他们对GPT-4 Turbo、Gemini Pro、Mixtral 8x7B等进行了全面评估，发现这些大模型智能体全部翻车了！即使是表现最好的，成功率也仅有0.6%。
对于大模型规划能力和智能体感兴趣的研究人员，以后又有一个新榜可以刷了。（手动狗头）
项目主页：https://osu-nlp-group.github.io/TravelPlanner/
看来，让智能体在现实世界中完成复杂规划任务的那一天，还远着呢。
LLM智能体，能规划旅行吗规划，是被视为人类智能的一大特征，它是建立在多种能力之上的进化成果，包括：
– 迭代使用各种工具来收集信息并做决策；
– 为了深入思考而在工作记

原文链接：GPT-4/Gemini大翻车，做旅行攻略成功率≈0%！复旦OSU等华人团队：Agent不会复杂任务规划