SpatialClaw

SpatialClaw – 英伟达联合 KAIST 推出的免训练空间推理框架

SpatialClaw：革新三维空间推理的智能体框架

由 NVIDIA Research 与 KAIST 联袂打造的 SpatialClaw，正以其前所未有的“代码即动作”机制，彻底颠覆传统的空间推理范式。这个免训练的智能体框架，在一个持久化的 Python 内核中，能够高效地处理复杂的 3D/4D 空间推理任务。其卓越表现已在 20 项基准测试中得到验证，平均准确率高达 59.9%，显著超越先前最优方法 11.2 个百分点，开启了空间智能的新纪元。

SpatialClaw 的核心能力

代码驱动的交互模式：SpatialClaw 赋予智能体在持久化 Jupyter 内核中，以单元格为单位撰写 Python 代码的能力。这种方式让智能体能够灵活地调用深度重建、分割掩码等一系列感知工具的输出，实现前所未有的度。
五阶段智能体生命周期：该框架遵循一套精密的五阶段循环：首先进行任务规划，随后生成相应的 Python 代码，接着对生成的代码进行抽象语法树 (AST) 安全校验，然后执行代码并整合反馈信息，最后提交答案或根据反馈进行迭代修正，形成一个完整的闭环。
多模态感知能力的无缝融合：SpatialClaw 原生支持如 Depth Anything 3、SAM 3 等先进的视觉工具，并能与 NumPy/SciPy 等库协同工作，进行实时、精确的几何计算，为复杂空间理解奠定坚实基础。
无需训练的通用部署：SpatialClaw 的一大亮点在于其完全免训练的特性。一套统一的系统提示词和工具集，即可直接应用于 Qwen3.5/3.6、Gemma4 等六种不同的主流骨干网络模型，极大降低了部署的复杂性和成本。
动态四维推理的全面支持：该框架的能力覆盖了单图、多视图、视频以及动态的 4D 时序场景，能够深入理解各种空间关系并进行精确的度量计算。

SpatialClaw 的技术精髓

颠覆性的代码即动作接口：SpatialClaw 将过去僵化的结构化工具调用，升级为更为灵活的 Python 代码生成。通过在持久化的 Jupyter 内核中，让视觉语言模型 (VLM) 能够自主编写、执行并修正代码，其动作空间不再局限于预定义的 JSON 格式，而是能够表达任意复杂的空间计算逻辑。
高效的五阶段智能体循环：系统内部的五阶段智能体循环（规划、代码生成、AST 安全校验、执行与反馈组装、答案提交或迭代修正）构成了一个强大的反馈闭环。每次执行后的变量状态和可视化结果，都会被多模态地反馈给 VLM，从而驱动其进行下一步的代码优化和修正。
持久化 Jupyter 内核的优势：代码执行产生的变量和对象会持续保存在内存中，后续的单元格可以直接复用这些中间结果，从而支持多步迭代推理。此外，内核中 matplotlib 生成的可视化输出会被捕获为图像反馈，使 VLM 能够“看见”计算过程，并据此调整其推理策略。
感知工具的模块化集成：Depth Anything 3、SAM 3 等基础视觉模型被封装为 Python 模块，VLM 可以通过编写代码组合这些模块，实现深度估计、分割掩码生成以及 NumPy/SciPy 的几何计算，确保了系统的模块化和可扩展性。
严格的 AST 安全校验：通过抽象语法树 (AST) 的静态分析技术，SpatialClaw 能够有效地拦截危险的调用，仅允许白名单内的感知工具和数学库执行，从而防止恶意代码的注入，并对资源占用进行严格控制。

如何驾驭 SpatialClaw

环境先行：首先，需要克隆 SpatialClaw 的 GitHub 仓库，并完成持久化 Jupyter 内核以及 Depth Anything 3、SAM 3 等依赖工具的环境配置。
模型选择：根据具体需求，选择 Qwen3.5/3.6 或 Gemma4 等支持的 VLM 作为核心推理引擎。
任务输入：将包含空间推理问题的图像、多视图数据或视频片段作为输入提交给系统。
智能体驱动：系统将自动启动并执行规划、代码生成、AST 校验、执行与反馈组装的迭代循环。
获取结果：最终的空间推理答案，可以从内核的变量状态和生成的可视化输出中提取。

SpatialClaw 的突出优势

即插即用的免训练特性：无需针对特定基准或模型进行任何微调，极大地降低了部署门槛和算力需求。
代码动作带来的极致灵活性：相较于固定的 JSON 工具调用，Python 代码能够表达无限复杂的空间计算逻辑，为问题解决提供了更多可能。
性能的飞跃式提升：在 DSI-Bench 和 MindCube 等动态任务上，分别实现了 17.6% 和 15.3% 的性能提升，展现出强大的竞争力。
跨模型的通用能力：同一套 SpatialClaw 架构，在 6 种不同参数规模（26B 至 397B）的 VLM 上均取得了显著且一致的性能增益。
安全可靠的执行保障：内置的 AST 安全校验机制，有效杜绝了恶意代码的执行风险，并确保了内核运行的稳定性。

SpatialClaw 的项目入口

项目官网：https://spatialclaw.github.io/
GitHub 仓库：https://github.com/NVlabs/SpatialClaw
技术论文：https://spatialclaw.github.io/static/pdfs/spatialclaw.pdf

SpatialClaw 与同类竞品对比

维度	SpatialClaw	SpaceTools
定位	NVIDIA 与 KAIST 联合发布的免训练空间推理智能体框架。	先前最优的空间智能体基线方法。
动作接口	代码即动作，在持久化 Jupyter 内核中生成并执行 Python 代码。	结构化工具调用，以固定 JSON 格式调用预定义感知工具。
训练需求	完全免训练，同一套提示词直接运行在 6 个不同 VLM 上。	需要针对特定基准或模型进行训练/微调。
支持模态	单图、多视图、视频与 4D 时序场景。	主要支持单图与多视图，动态 4D 能力有限。
核心机制	五阶段循环（规划→代码生成→AST 校验→执行反馈→迭代修正）。	单步或有限步的工具链编排，无代码级反馈循环。
动态 4D 性能	DSI-Bench 提升 +17.6，MindCube 提升 +15.3，原生支持时序推理。	动态任务表现较弱，缺乏时序状态累积机制。
迭代纠错	执行错误与变量状态回传 VLM，支持代码级自主修正。	工具调用出错后难以自动修复，通常需人工干预。