耗资1.3万，ASU团队揭秘o1推理王者！碾压所有LLM成本超高，关键还会PUA

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：耗资1.3万，ASU团队揭秘o1推理王者！碾压所有LLM成本超高，关键还会PUA
关键字：模型,测试,实例,性能,问题
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：桃子好困
【新智元导读】LLM不会规划，大推理模型o1可以吗？ASU团队最新研究发现，o1-preview推理规划能力是所有模型之最，但仍未触及天花板。关键是，推理强，成本超高。LLM依然不会规划，LRM可以吗？
OpenAI声称，草莓o1已经突破了自回归LLM常规限制，成为一种新型的「大推理模型」（LRM）。
它能够基于强化学习，通过CoT多步推理。并且，这种推理过程的代价，是高昂的。
来自ASU研究人员以此为契机，全面评估了当前LLM和新型LRM，在测试基准PlanBench上表现。
论文地址：https://arxiv.org/pdf/2409.13373
PlanBench是他们在22年提出，评估大模型规划能力的测试基准。
在最新测试中，研究人员发现，o1-preview表现出色，大幅领先其他模型，但也未完全通过PlanBench基准测试。
其他LLM，在Mystery Blocksworld上的性能都不过5%。在基准上的结果曲线，和X轴几乎融合。
足见，这些大模型的规划能力，非常地弱。
不过，作者指出，规划推理越长，o1-preview的准确率便会低于25

原文链接：耗资1.3万，ASU团队揭秘o1推理王者！碾压所有LLM成本超高，关键还会PUA