向视觉版o1出击，阶跃张祥雨团队推出“慢感知”，实现感知层面的推理时scaling

未来视觉推理的重要基础

原标题：向视觉版o1出击，阶跃张祥雨团队推出“慢感知”，实现感知层面的推理时scaling
文章来源：量子位
内容字数：4320字

慢感知：让AI“慢”下来，才能看得更清楚

本文总结了慢感知团队在量子位公众号上发表的关于“慢感知”研究的成果。该研究指出，当前的多模态大模型过于依赖System 1感知（快速直觉感知），缺乏对视觉细节的精细化处理，限制了其在复杂视觉任务中的应用。为此，研究人员提出了“慢感知”（Slow Perception）的概念，旨在通过任务分解和逐步推理，提升模型的视觉感知能力。

1. 慢感知的提出与背景

研究团队发现，现有多模态模型在处理需要精细视觉感知的任务时表现不佳，例如，简单的螺旋线字母排序题就难倒了所有模型。这表明，目前的模型对视觉信息的处理过于粗略，缺乏对细节的深入感知。慢感知的理念是，如同人类思考需要时间一样，视觉感知也需要“慢”下来，才能更准确地理解信息。这需要对感知过程进行分解，逐步进行推理。

2. 基于几何解析任务的慢感知建模

研究人员选择几何解析任务作为慢感知的初步建模对象，原因有三：首先，几何题是多模态模型常遇到的挑战，但许多模型甚至无法准确复制几何图形；其次，几何解析本身就是一个具有挑战性的视觉感知任务；最后，几何图形是人类对自然场景的抽象，从几何解析入手可以为构建更通用的System 2视觉模型奠定基础。

3. 慢感知的两个阶段：感知分解和感知流动

慢感知模型包含两个阶段：感知分解（Perception Decomposition）和感知流动（Perception Flow）。感知分解将复杂的几何图形分解成最基本的单元——线段，简化了模型的处理难度。感知流动则模拟了人类使用尺子描绘线条的过程，模型通过虚拟的“感知尺”逐步描绘线段，将长线段的感知过程分解成多个步骤，每个步骤对应一个“凝视点”。感知尺长度的设置影响模型的推理计算量，长度越短，计算量越大，“慢”感知越明显，模型性能也越好。

4. 实验结果与分析

实验结果表明，通过缩短感知尺长度，模型的几何解析性能显著提升，验证了慢感知的有效性。即使在加入凝视点抖动的情况下，模型性能依然优于基线模型，这表明慢感知的关键在于建模感知的正确流向，而非对凝视点的精确度要求过高，这降低了模型训练的难度。

5. 结论与未来展望

研究表明，提升多模态模型的System 2感知能力至关重要，而慢感知提供了一种有效的途径。该研究在几何解析任务上取得了初步成功，未来将进一步扩展到更通用的视觉任务中。慢感知的开源地址和论文地址也已公布，方便研究者进一步学习和应用。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # 张祥雨团队 # 感知层Scaling # 慢感知 # 视觉推理 # 阶跃式感知

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

向视觉版o1出击，阶跃张祥雨团队推出“慢感知”，实现感知层面的推理时scaling

未来视觉推理的重要基础

慢感知：让AI“慢”下来，才能看得更清楚

1. 慢感知的提出与背景

2. 基于几何解析任务的慢感知建模

3. 慢感知的两个阶段：感知分解和感知流动

4. 实验结果与分析

5. 结论与未来展望

联系作者

最懂医疗的国产推理大模型，果然来自百川智能

推理强，医疗能力更强！百川全场景深度思考模型登场

相关文章

暂无评论

ChatGPT

毕业论文生成器