AIGC动态欢迎阅读
原标题:耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA
关键字:模型,测试,实例,性能,问题
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:桃子 好困
【新智元导读】LLM不会规划,大推理模型o1可以吗?ASU团队最新研究发现,o1-preview推理规划能力是所有模型之最,但仍未触及天花板。关键是,推理强,成本超高。LLM依然不会规划,LRM可以吗?
OpenAI声称,草莓o1已经突破了自回归LLM常规限制,成为一种新型的「大推理模型」(LRM)。
它能够基于强化学习,通过CoT多步推理。并且,这种推理过程的代价,是高昂的。
来自ASU研究人员以此为契机,全面评估了当前LLM和新型LRM,在测试基准PlanBench上表现。
论文地址:https://arxiv.org/pdf/2409.13373
PlanBench是他们在22年提出,评估大模型规划能力的测试基准。
在最新测试中,研究人员发现,o1-preview表现出色,大幅领先其他模型,但也未完全通过PlanBench基准测试。
其他LLM,在Mystery Blocksworld上的性能都不过5%。在基准上的结果曲线,和X轴几乎融合。
足见,这些大模型的规划能力,非常地弱。
不过,作者指出,规划推理越长,o1-preview的准确率便会低于25
原文链接:耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA
联系作者
文章来源:新智元
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...