LLM 实际上可以从预训练数据中学习出一种通用推理方法。
原标题:大模型不会推理,为什么也能有思路?有人把原理搞明白了
文章来源:机器之心
内容字数:7216字
大语言模型的推理能力:程序性知识的驱动
近日,伦敦大学学院(UCL)等机构发布了一项研究,探讨了大语言模型(LLM)在推理任务中采用的泛化策略。该研究的核心发现是,大模型的推理能力实际上是基于预训练数据中的程序性知识,而非简单的检索答案。这一结论可能会改变我们对大模型推理的理解。
研究背景
自大模型问世以来,学术界对其推理能力的本质进行了广泛讨论。尽管一些研究者认为大模型在推理时只是从参数中检索中间步骤的答案,但新的研究表明,模型实际上是在利用预训练阶段获得的程序性知识。
实验设计与发现
研究者们对包含500万个文档的数据集进行了分析,评估了两个不同规模模型(7B和35B)在处理事实问题和数学推理时的表现。以下是研究的五大主要发现:
- 文档影响力正相关:对相同推理任务的查询,文档的影响力得分之间存在显著的正相关性,表明这些文档与相似问题相关。
- 推理时依赖程度较低:模型在推理时对每个文档的依赖程度显著低于回答事实问题时,说明推理过程更依赖于一组通用文档。
- 答案出现频率差异:事实问题的答案在相关文档中出现的频率远高于推理问题,后者的答案几乎未在相关文档中找到。
- 推理文档形式:对推理查询有影响力的文档通常采用逐步推理形式,提供算术和代码解决方案。
- 数据来源差异:事实查询的主要数据来源包括维基百科,而推理查询则主要依赖数学、StackExchange和代码。
研究结论
研究表明,大语言模型通过应用程序性知识进行推理,而非简单检索。这意味着在预训练过程中,关注高质量和多样化的程序数据可能比覆盖所有情况更为有效。这一发现对未来人工智能的发展具有重要意义,可能会推动我们重新审视模型设计的方向。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...