VSI-Bench

VSI-Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集

VSI-Bench是一种全新的视觉空间智能基准测试集，由李飞飞、谢赛宁及其研究团队共同开发，旨在评估多模态大型语言模型（MLLMs）在空间认知和理解方面的能力。该基准测试集涵盖了超过5000个问题-答案对，基于近290个真实室内场景视频，涉及住宅、办公室以及工厂等多种环境。VSI-Bench的设计包括多种任务类型，如配置型任务、测量估计和时空任务，旨在系统性地测试和提升MLLMs的视觉空间智能表现。

VSI-Bench是什么

VSI-Bench（Visual-Spatial Intelligence Benchmark）是由李飞飞、谢赛宁及其研究团队推出的一项视觉空间智能基准测试集，专门用于评估多模态大型语言模型（MLLMs）在空间认知与理解能力方面的表现。该测试集包含超过5000个问答对，基于近290个真实室内场景视频，涵盖住宅、办公室和工厂等多种环境。VSI-Bench的任务类型多样，包括配置型任务（如物体计数和相对距离）、测量估计（如物体尺寸和房间大小）以及时空任务（如物体出现顺序），旨在系统地测试和提高MLLMs在视觉空间智能方面的能力。

VSI-Bench

VSI-Bench的主要功能

视觉空间智能评估：量化多模态大型语言模型（MLLMs）在视觉空间智能上的表现，包括空间关系的感知、理解及记忆能力。
标准化基准测试：提供一个包含5000多个问答对的标准化测试集，用于基准测试和不同MLLMs在视觉空间任务中的性能比较。
任务多样性：涵盖配置型任务（如物体计数、相对距离、相对方向和路线规划）、测量估计（如物体尺寸、房间大小和绝对距离）以及时空任务（如物体出现顺序），全面反映视觉空间智能的多个维度。
视频理解能力：通过视频输入测试MLLMs对连续时间性信息的理解，模拟人类观察世界的方式，相较于静态图像更具真实性。
数据质量控制：通过人工审核确保数据的高质量，有效消除歧义和错误标注，从而提高测试结果的可信度。

VSI-Bench的技术原理

数据集构建：基于多个公共室内3D场景重建数据集（如ScanNet、ScanNet++和ARKitScenes），提供高保真度的视频扫描和对象级别的3D注释。
问题-答案对生成：利用数据集中的元信息（如对象类别和边界框）和问题模板自动生成问答对，同时对路线规划任务进行人工标注。
质量控制措施：实施人工审核流程，确保问题的清晰性和无歧义性，对错误或模糊的问题进行追溯和修正。
模型评估方法：在零样本设置下评估多种视频支持的MLLMs，采用默认提示进行测试，并使用精确匹配和模糊匹配作为主要评估标准。
性能指标设定：针对多项选择题（MCA）任务使用准确度（ACC），对于数值答案（NA）任务引入新的度量标准——平均相对准确度（MRA）。
认知图生成：引导MLLMs预测视频中对象的中心位置，从而生成认知图，评估模型的内部空间表示和记忆能力。