揭开大模型思维的神秘面纱：如何在无推理的世界中找到灵感

LLM 实际上可以从预训练数据中学习出一种通用推理方法。

原标题：大模型不会推理，为什么也能有思路？有人把原理搞明白了
文章来源：机器之心
内容字数：7216字

近日，伦敦大学学院（UCL）等机构发布了一项研究，探讨了大语言模型（LLM）在推理任务中采用的泛化策略。该研究的核心发现是，大模型的推理能力实际上是基于预训练数据中的程序性知识，而非简单的检索答案。这一结论可能会改变我们对大模型推理的理解。

自大模型问世以来，学术界对其推理能力的本质进行了广泛讨论。尽管一些研究者认为大模型在推理时只是从参数中检索中间步骤的答案，但新的研究表明，模型实际上是在利用预训练阶段获得的程序性知识。

研究者们对包含500万个文档的数据集进行了分析，评估了两个不同规模模型（7B和35B）在处理事实问题和数学推理时的表现。以下是研究的五大主要发现：

研究表明，大语言模型通过应用程序性知识进行推理，而非简单检索。这意味着在预训练过程中，关注高质量和多样化的程序数据可能比覆盖所有情况更为有效。这一发现对未来人工智能的发展具有重要意义，可能会推动我们重新审视模型设计的方向。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...