LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和
关键字：模型,报告,测试,能力,实例
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：陈陈、小舟实验证明，大模型的 System 2 能力还有待开发。
规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型（LLM）的出现，人们对 LLM 是否具有这种规划能力产生了极大的兴趣。
最近，OpenAI 发布了 o1 模型，一举创造了很多历史记录。o1 模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答环节上超越人类专家。
那么，o1 模型是否具备上述规划能力？
2022 年，来自亚利桑那州立大学（ASU）的研究团队开发了评估 LLM 规划能力的基准 ——PlanBench。现在，亚利桑那州立大学研究团队全面审视了当前 LLM 在 PlanBench 上的表现，包括 o1 模型。值得注意的是，虽然 o1 在基准测试上性能超过了竞争对手，但它还远未达到饱和状态。论文标题：LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation o

原文链接：LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和