Pixel Reasoner

Pixel Reasoner – 滑铁卢联合港科大等高校推出的视觉语言模型

Pixel Reasoner

Pixel Reasoner是什么

Pixel Reasoner是由滑铁卢大学、香港科技大学和中国科学技术大学等多家机构共同研发的一款视觉语言模型（VLM），旨在通过像素空间推理增强视觉信息的理解与推理能力。该模型能够直接对视觉输入执行操作，比如放大图像特定区域或选择视频帧，从而更精准地捕捉到视觉细节。Pixel Reasoner采用了两阶段的训练方法，通过指令调优使模型熟悉各种视觉操作，并通过好奇心驱动的强化学习激励模型深入探索像素空间推理。在多个视觉推理基准测试中，Pixel Reasoner展现出卓越的表现，显著提升了视觉密集型任务的效率。

Pixel Reasoner的主要功能

直接视觉操作：能够直接对图像和视频等视觉输入进行操作，如放大图像区域（zoom-in）和选择视频帧（select-frame），从而更细致地捕捉视觉信息。
增强视觉理解：具备识别和理解图像中细微物体、复杂空间关系、嵌入小文本及视频中的细微动作的能力。
多模态推理：全面处理复杂的视觉语言任务，如视觉问答（VQA）和视频理解等。
自适应推理：根据任务需求灵活选择是否实施视觉操作，从而在不同类型的视觉任务中实现最佳推理效果。

Pixel Reasoner的技术原理

指令调优（Instruction Tuning）：
- 收集种子数据：挑选具有丰富视觉信息的图像和视频数据集，例如SA1B、FineWeb和STARQA。
- 定位参考视觉线索：通过数据集的标注或使用GPT-4o生成的标注，识别与特定问题相关的视觉线索（如边界框或帧索引）。
- 合成专家轨迹：利用模板化方法生成推理轨迹，确保模型在推理过程中能准确使用视觉操作。首先分析整体视觉输入，然后触发特定的视觉操作提取细节，最终结合这些细节得出答案。
训练：通过监督学习（Supervised Fine-Tuning，SFT）对模型进行训练，使其熟悉视觉操作。基于插入错误的视觉操作并合成自我修正轨迹，提升模型对意外视觉结果的应对能力。
好奇心驱动的强化学习：设计包含好奇心奖励和效率惩罚的奖励函数，激励模型探索像素空间推理。
训练过程：通过强化学习（RL）对模型进行训练，以好奇心奖励激励模型探索像素空间推理，并通过效率惩罚限制视觉操作的数量。每512个查询更新一次行为策略和改进策略，模型逐渐学会在适当的查询中使用像素空间推理，并在视觉操作失败时进行自我修正。