揭秘Ilya的「Scaling What」：程序性知识的深度解析与应用

本期通讯 23188 字，可免费试读至 9%。

原标题：Ilya 「Scaling What」的答案会是程序性知识吗？
文章来源：机器之心
内容字数：4658字

在近年来大规模语言模型（LLM）的发展中，关于其是否具备真实推理能力的辩论从未停止。Ilya Sutskever在最近的访谈中提到“Scaling the right thing matters more now than ever”，这引发了对推理层Scaling Law的深入探讨。

程序性知识（procedural knowledge）是指执行特定任务或解决问题所需的步骤和方法。在LLM的背景下，它指的是模型从预训练数据中学习到的一系列逻辑步骤或计算过程，用于执行推理任务。

多项研究表明，经过预训练的LLM在零样本条件下展现出处理陌生任务的能力，尤其在抽象模式归纳方面表现惊人。然而，也有研究质疑其推理能力，认为LLM的“推理”过程实际上可能只是模式匹配。

研究发现，LLM在处理事实问题时依赖于特定文档进行答案检索，而在推理问题上则采取不同的策略。模型利用从预训练数据中学到的程序性知识，生成答案时并非单纯检索，而是综合多种文档的信息进行推理。

UCL和Cohere的研究指出，代码预训练在多项任务中均发挥了重要作用，这引发了一个新的问题：是否可能存在一种预训练数据（如代码）能够让LLM学习到多种任务的解决方案？

尽管LLM在推理能力方面的争论仍在继续，但程序性知识的作用愈发明显。未来的研究可进一步探索如何利用不同类型的预训练数据来提升LLM的推理能力，特别是在处理复杂任务时。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...