原标题:梅兰妮·米切尔|大模型和世界模型
文章来源:人工智能学家
内容字数:24582字
大型语言模型与世界模型:深度解读
本文探讨了大型语言模型(LLM)是否真正理解其“世界”,以及它们是否拥有类似人类的“世界模型”。文章分为两部分,首先回顾了以往人工智能系统的脆弱性,然后深入分析了LLM中世界模型存在的证据和反驳意见。
1. 以往人工智能的脆弱性
早期的机器学习系统往往依赖于“捷径”或“表面启发式”来解决问题,而非学习一般概念。例如,一个训练用于识别皮肤病变的深度神经网络,会错误地将带有标尺的图像识别为恶性,因为它在训练数据中观察到这种关联,而非真正理解病变的特征。类似的现象也出现在自然语言处理和强化学习领域,系统往往依赖于训练数据中的表面特征,而非深层次的理解。
2. 大模型中涌现世界模型的争论
大型语言模型的出现引发了关于其能力的激烈争论。OpenAI 联合创始人Ilya Sutskever认为LLM已经学习了强大的世界模型,而其他人则认为其成功更多地依赖于对大量训练数据的记忆和检索。学术界对此观点存在明显分歧,一项调查显示,对LLM是否能够理解自然语言的观点几乎五五开。
3. 什么是世界模型?
“世界模型”在人工智能领域是一个流行但缺乏统一定义的概念。它通常被描述为对外部世界各个方面进行内部模拟的表征,能够捕捉因果结构并进行预测。文章引用了不同类型的模型,例如静态查找表、地图、太阳系仪和模拟器,来解释世界模型的不同层次。作者认为,人类的世界模型能够让我们快速理解复杂情境、预测未来并进行反事实推理。
4. 大模型中世界模型的证据:奥赛罗案例
文章以奥赛罗游戏为例,详细分析了支持LLM拥有世界模型的证据。研究人员训练了一个Transformer网络(OthelloGPT)来预测游戏的合法走法。通过探测技术分析其内部激活,发现其内部激活编码了棋盘状态。起初,简单的线性探测器效果不佳,但更强大的非线性探测器能够以高精度预测棋盘状态,这似乎表明OthelloGPT拥有隐式世界模型。然而,后续研究表明,OthelloGPT可能并非拥有一个连贯的世界模型,而是依赖于大量的局部启发式规则的集合。
5. 世界模型与启发式方法
后续研究表明,OthelloGPT 的成功可能并非源于一个抽象的世界模型,而是依赖于大量特定于游戏的局部启发式规则。这些规则虽然能产生准确的预测,但缺乏抽象性和泛化能力,在面对新情况时容易失效。类似的启发式方法集合可能也存在于其他LLM任务中。
6. 结论
文章总结认为,目前缺乏有力证据支持LLM拥有类似人类的抽象世界模型。虽然在特定领域(如奥赛罗)观察到LLM似乎拥有某种对世界状态的内部表示,但这些表示更可能是大量局部启发式规则的集合,而非一个连贯、抽象的世界模型。未来研究需要更严格地定义“世界模型”,并关注其在不同任务中的泛化能力和鲁棒性。
联系作者
文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构