问题关键在于信息处理维度
原标题:o3挑战ARC-AGI,遇见大网格就懵圈?英国工程师:ARC-AGI不适合大模型
文章来源:量子位
内容字数:3327字
大模型在ARC-AGI推理任务中的局限性
本文总结了关于大语言模型(LLM)在ARC-AGI超难推理任务上表现的研究发现。研究表明,模型性能并非完全取决于任务难度,而是与任务规模密切相关。特别是网格规模对模型表现的影响尤为显著。
1. 网格规模与模型性能的负相关关系
研究人员发现,在ARC-AGI任务中,包含色块网格的规模越大,大模型(包括o3、o1、o1 mini以及Claude)的表现越差。 o3虽然在较小规模的网格上表现出色,但在网格数量达到1024个左右时,其性能下降趋势明显加剧。
2. 实验验证与数据分析
通过将单个网格细分成更小的网格进行实验,研究人员进一步验证了网格规模的影响。即使是原本能够正确解答的题目,在增加网格数量后,模型的准确率也显著下降。对ARC数据集的统计分析也表明,规模为1024像素的题目数量最多,这与o3性能下降的拐点相吻合。
3. 模型与人类的差异化表现
研究指出,人类在解决类似问题时不会出现这种受规模影响的现象。在小规模网格上,o3的表现优于人类;但在较大规模网格上,人类的表现则优于o3。这说明大模型与人类在解决此类问题时的思维方式存在差异。
4. 维度差异与信息处理方式
研究人员认为,大模型处理信息的方式(一维token流)与人类处理二维空间信息的方式存在根本差异。大规模网格需要模型处理更长的上下文信息,进行跨行跨列的复杂推理,这导致了模型性能的下降。通过旋转矩阵,让模型分别基于行和列进行推理,可以显著提高模型的准确率,这进一步佐证了维度差异的影响。
5. 视觉信息与信息处理的局限性
网友指出,即使模型具备“视觉”能力,其对视觉信息的处理方式也与人类不同。人类视觉能够并行处理信息,而模型则采用逐个token的串行处理方式,这可能是导致性能下降的另一个重要因素。
6. ARC-AGI的局限性与未来展望
研究结论认为,ARC-AGI挑战并不完全能够反映大模型的真实推理能力,一些模型可能被低估,而o3则可能被高估。ARC-AGI-2的即将推出,也将对现有模型提出更大的挑战,预计o3的得分将大幅下降。
总而言之,这项研究揭示了大模型在处理空间推理任务时的局限性,特别是网格规模对模型性能的显著影响,为进一步改进大模型的推理能力提供了重要的研究方向。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破