未来视觉推理的重要基础
原标题:向视觉版o1出击,阶跃张祥雨团队推出“慢感知”,实现感知层面的推理时scaling
文章来源:量子位
内容字数:4320字
慢感知:让AI“慢”下来,才能看得更清楚
本文总结了慢感知团队在量子位公众号上发表的关于“慢感知”研究的成果。该研究指出,当前的多模态大模型过于依赖System 1感知(快速直觉感知),缺乏对视觉细节的精细化处理,限制了其在复杂视觉任务中的应用。为此,研究人员提出了“慢感知”(Slow Perception)的概念,旨在通过任务分解和逐步推理,提升模型的视觉感知能力。
1. 慢感知的提出与背景
研究团队发现,现有多模态模型在处理需要精细视觉感知的任务时表现不佳,例如,简单的螺旋线字母排序题就难倒了所有模型。这表明,目前的模型对视觉信息的处理过于粗略,缺乏对细节的深入感知。慢感知的理念是,如同人类思考需要时间一样,视觉感知也需要“慢”下来,才能更准确地理解信息。这需要对感知过程进行分解,逐步进行推理。
2. 基于几何解析任务的慢感知建模
研究人员选择几何解析任务作为慢感知的初步建模对象,原因有三:首先,几何题是多模态模型常遇到的挑战,但许多模型甚至无法准确复制几何图形;其次,几何解析本身就是一个具有挑战性的视觉感知任务;最后,几何图形是人类对自然场景的抽象,从几何解析入手可以为构建更通用的System 2视觉模型奠定基础。
3. 慢感知的两个阶段:感知分解和感知流动
慢感知模型包含两个阶段:感知分解(Perception Decomposition)和感知流动(Perception Flow)。感知分解将复杂的几何图形分解成最基本的单元——线段,简化了模型的处理难度。感知流动则模拟了人类使用尺子描绘线条的过程,模型通过虚拟的“感知尺”逐步描绘线段,将长线段的感知过程分解成多个步骤,每个步骤对应一个“凝视点”。感知尺长度的设置影响模型的推理计算量,长度越短,计算量越大,“慢”感知越明显,模型性能也越好。
4. 实验结果与分析
实验结果表明,通过缩短感知尺长度,模型的几何解析性能显著提升,验证了慢感知的有效性。即使在加入凝视点抖动的情况下,模型性能依然优于基线模型,这表明慢感知的关键在于建模感知的正确流向,而非对凝视点的精确度要求过高,这降低了模型训练的难度。
5. 结论与未来展望
研究表明,提升多模态模型的System 2感知能力至关重要,而慢感知提供了一种有效的途径。该研究在几何解析任务上取得了初步成功,未来将进一步扩展到更通用的视觉任务中。慢感知的开源地址和论文地址也已公布,方便研究者进一步学习和应用。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破