SpatialClaw – 英伟达联合 KAIST 推出的免训练空间推理框架
SpatialClaw:革新三维空间推理的智能体框架
由 NVIDIA Research 与 KAIST 联袂打造的 SpatialClaw,正以其前所未有的“代码即动作”机制,彻底颠覆传统的空间推理范式。这个免训练的智能体框架,在一个持久化的 Python 内核中,能够高效地处理复杂的 3D/4D 空间推理任务。其卓越表现已在 20 项基准测试中得到验证,平均准确率高达 59.9%,显著超越先前最优方法 11.2 个百分点,开启了空间智能的新纪元。
SpatialClaw 的核心能力
- 代码驱动的交互模式:SpatialClaw 赋予智能体在持久化 Jupyter 内核中,以单元格为单位撰写 Python 代码的能力。这种方式让智能体能够灵活地调用深度重建、分割掩码等一系列感知工具的输出,实现前所未有的度。
- 五阶段智能体生命周期:该框架遵循一套精密的五阶段循环:首先进行任务规划,随后生成相应的 Python 代码,接着对生成的代码进行抽象语法树 (AST) 安全校验,然后执行代码并整合反馈信息,最后提交答案或根据反馈进行迭代修正,形成一个完整的闭环。
- 多模态感知能力的无缝融合:SpatialClaw 原生支持如 Depth Anything 3、SAM 3 等先进的视觉工具,并能与 NumPy/SciPy 等库协同工作,进行实时、精确的几何计算,为复杂空间理解奠定坚实基础。
- 无需训练的通用部署:SpatialClaw 的一大亮点在于其完全免训练的特性。一套统一的系统提示词和工具集,即可直接应用于 Qwen3.5/3.6、Gemma4 等六种不同的主流骨干网络模型,极大降低了部署的复杂性和成本。
- 动态四维推理的全面支持:该框架的能力覆盖了单图、多视图、视频以及动态的 4D 时序场景,能够深入理解各种空间关系并进行精确的度量计算。
SpatialClaw 的技术精髓
- 颠覆性的代码即动作接口:SpatialClaw 将过去僵化的结构化工具调用,升级为更为灵活的 Python 代码生成。通过在持久化的 Jupyter 内核中,让视觉语言模型 (VLM) 能够自主编写、执行并修正代码,其动作空间不再局限于预定义的 JSON 格式,而是能够表达任意复杂的空间计算逻辑。
- 高效的五阶段智能体循环:系统内部的五阶段智能体循环(规划、代码生成、AST 安全校验、执行与反馈组装、答案提交或迭代修正)构成了一个强大的反馈闭环。每次执行后的变量状态和可视化结果,都会被多模态地反馈给 VLM,从而驱动其进行下一步的代码优化和修正。
- 持久化 Jupyter 内核的优势:代码执行产生的变量和对象会持续保存在内存中,后续的单元格可以直接复用这些中间结果,从而支持多步迭代推理。此外,内核中 matplotlib 生成的可视化输出会被捕获为图像反馈,使 VLM 能够“看见”计算过程,并据此调整其推理策略。
- 感知工具的模块化集成:Depth Anything 3、SAM 3 等基础视觉模型被封装为 Python 模块,VLM 可以通过编写代码组合这些模块,实现深度估计、分割掩码生成以及 NumPy/SciPy 的几何计算,确保了系统的模块化和可扩展性。
- 严格的 AST 安全校验:通过抽象语法树 (AST) 的静态分析技术,SpatialClaw 能够有效地拦截危险的调用,仅允许白名单内的感知工具和数学库执行,从而防止恶意代码的注入,并对资源占用进行严格控制。
如何驾驭 SpatialClaw
- 环境先行:首先,需要克隆 SpatialClaw 的 GitHub 仓库,并完成持久化 Jupyter 内核以及 Depth Anything 3、SAM 3 等依赖工具的环境配置。
- 模型选择:根据具体需求,选择 Qwen3.5/3.6 或 Gemma4 等支持的 VLM 作为核心推理引擎。
- 任务输入:将包含空间推理问题的图像、多视图数据或视频片段作为输入提交给系统。
- 智能体驱动:系统将自动启动并执行规划、代码生成、AST 校验、执行与反馈组装的迭代循环。
- 获取结果:最终的空间推理答案,可以从内核的变量状态和生成的可视化输出中提取。
SpatialClaw 的突出优势
- 即插即用的免训练特性:无需针对特定基准或模型进行任何微调,极大地降低了部署门槛和算力需求。
- 代码动作带来的极致灵活性:相较于固定的 JSON 工具调用,Python 代码能够表达无限复杂的空间计算逻辑,为问题解决提供了更多可能。
- 性能的飞跃式提升:在 DSI-Bench 和 MindCube 等动态任务上,分别实现了 17.6% 和 15.3% 的性能提升,展现出强大的竞争力。
- 跨模型的通用能力:同一套 SpatialClaw 架构,在 6 种不同参数规模(26B 至 397B)的 VLM 上均取得了显著且一致的性能增益。
- 安全可靠的执行保障:内置的 AST 安全校验机制,有效杜绝了恶意代码的执行风险,并确保了内核运行的稳定性。
SpatialClaw 的项目入口
- 项目官网:https://spatialclaw.github.io/
- GitHub 仓库:https://github.com/NVlabs/SpatialClaw
- 技术论文:https://spatialclaw.github.io/static/pdfs/spatialclaw.pdf
SpatialClaw 与同类竞品对比
| 维度 | SpatialClaw | SpaceTools |
|---|---|---|
| 定位 | NVIDIA 与 KAIST 联合发布的免训练空间推理智能体框架。 | 先前最优的空间智能体基线方法。 |
| 动作接口 | 代码即动作,在持久化 Jupyter 内核中生成并执行 Python 代码。 | 结构化工具调用,以固定 JSON 格式调用预定义感知工具。 |
| 训练需求 | 完全免训练,同一套提示词直接运行在 6 个不同 VLM 上。 | 需要针对特定基准或模型进行训练/微调。 |
| 支持模态 | 单图、多视图、视频与 4D 时序场景。 | 主要支持单图与多视图,动态 4D 能力有限。 |
| 核心机制 | 五阶段循环(规划→代码生成→AST 校验→执行反馈→迭代修正)。 | 单步或有限步的工具链编排,无代码级反馈循环。 |
| 动态 4D 性能 | DSI-Bench 提升 +17.6,MindCube 提升 +15.3,原生支持时序推理。 | 动态任务表现较弱,缺乏时序状态累积机制。 |
| 迭代纠错 | 执行错误与变量状态回传 VLM,支持代码级自主修正。 | 工具调用出错后难以自动修复,通常需人工干预。 |
SpatialClaw 的广泛应用前景
- 机器人导航与抓取:为移动机器人和机械臂提供精准的物体度量距离和空间关系判断,辅助路径规划与抓取姿态的优化。
- AR/VR 室内布局:自动识别家具、门窗等对象的相对位置和尺寸,生成科学的室内摆放方案,并实时叠加于虚拟环境。
- 自动驾驶感知:融合多摄像头输入进行三维场景重建,深刻理解道路元素的空间拓扑关系,为决策规划提供有力支持。
- 建筑安全巡检:基于多视角图像分析建筑工地结构的合规性,精准检测脚手架间距、防护栏高度等关键安全指标。
- 工业精密测量:通过多视图深度估计技术,对零部件进行非接触式三维尺寸测量和形位公差检测。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


