Spatial-TTT – 清华联合混元开源的流式视觉空间智能框架
Spatial-TTT:革新流式视觉空间智能的框架
Spatial-TTT,一个由清华大学、腾讯混元以及南洋理工大手打造的尖端流式视觉空间智能框架,正以其独特的技术魅力和卓越的性能,重新定义我们对人工智能处理视频流中空间信息的认知。该框架仅拥有 20 亿(2B)参数,却凭借 Test-Time Training(TTT)这一性技术,能够在视频流播放过程中不断精炼和更新其内部的空间记忆,从而实现对长达 120 分钟视频内容的深度空间推理。
Spatial-TTT 的核心亮点
- 动态空间记忆构建:Spatial-TTT 巧妙地将视频流分割成若干小片段进行处理,并利用“快速权重”(fast weights)在线更新模型参数。这一过程使得模型能够持续累积三维空间证据,彻底摆脱了对一次性加载整段视频的依赖。
- 长时程空间洞察力:该框架在空间推理方面表现出色,能够精准执行相对/绝对距离估算、物体数量与大小判断、房间尺寸感知、方向识别、路径规划以及外观顺序推理等一系列复杂任务。
- 超长视频处理能力:Spatial-TTT 能够稳定处理从 10 分钟到 120 分钟的连续视频流,并在 VSI-SUPER 长期记忆基准测试中,展现出性能不衰减的强大韧性。
- 极致高效的推理体验:在处理 1024 帧输入时,其峰值显存占用仅为 11.9GB,理论计算量也控制在 799.4 TFLOPs,远低于行业内同类领先的大模型,为用户带来前所未有的流畅体验。
想要深入了解更多关于 AI 开源项目的信息?微信关注并回复“开源”,即可加入AI开源项目交流群,与众多技术爱好者共同探讨前沿技术。
Spatial-TTT 的技术精髓
- 混合式 TTT 架构:该研究团队独具匠心地在解码器中以 3:1 的比例交错布置 TTT 层与标准自注意力锚定层。其中,75% 的 TTT 层专注于将长程空间信息写入快速权重,实现了线性复杂度的记忆扩展;而剩余的 25% 全注意力层则致力于保留预训练模型的语义理解和跨模态对齐能力,有效避免了纯 TTT 结构对原有视觉-语言能力的损害。
- 空间预测机制的升华:区别于传统 TTT 模型中简单的逐点线性投影,Spatial-TTT 在 TTT 分支中巧妙融入了轻量级的 3D 时空卷积。这使得快速权重能够学习时空上下文之间的预测关系,而非孤立 token 的简单映射,从而更稳定地捕捉几何对应、视角变化以及时间连续性。
- 稠密场景描述监督与渐进式训练:为了解决现有空间智能数据在驱动快速权重进行全局更新方面的不足,研究团队构建了覆盖全局语境、物体类别与数量、空间关系的稠密 3D 场景描述数据集。并采用了两阶段的空间感知渐进训练策略:第一阶段通过学习“记住整个空间”的稠密描述,培养全局 3D 意识;第二阶段则利用数百万条空间 VQA 数据,进一步强化模型的流式推理能力。
如何驾驭 Spatial-TTT
- 环境的先行准备:首先,请访问 GitHub 仓库(https://github.com/THU-SI/Spatial-TTT/)克隆项目代码,并根据指引配置好 Python 环境及相关依赖。
- 模型的优雅加载:接着,加载预训练的 Spatial-TTT-2B 权重,并初始化 TTT 快速权重。
- 视频流的智能输入:将长视频切分成连续的片段(chunk),逐个输入模型进行处理。每处理完一个片段,模型便能自动更新其内部空间状态。
- 空间问题的智慧问答:输入自然语言形式的空间问题(例如,“从红色蜡烛出发,面向窗户,如何走到门口?”),模型将基于累积的空间记忆,生成精准的答案。
- 无限可能的应用拓展:Spatial-TTT 同样可以无缝接入机器人、自动驾驶或 AR 等设备的实时视频流,实现持续、智能的空间感知能力。
Spatial-TTT 的核心竞争力
- 小巧身躯,超越巨头:凭借仅 2B 的参数量,Spatial-TTT 在多项空间基准测试中力压 GPT-5、Gemini-3-pro 等闭源巨头。特别是在 MindCube-Tiny 测试中,其准确率更是领先 Gemini-3-pro 达 12 个百分点。
- 线性扩展,无惧时长:通过在线更新 fast weights,Spatial-TTT 的显存与计算量随视频长度呈线性增长,彻底避免了传统长上下文模型现的平方级复杂度问题。
- 空间记忆,而非内容堆砌:该框架不依赖于无限膨胀的上下文窗口,而是将观察转化为可更新、修正和调用的内部空间状态,这对于需要长期运行的物理 Agent 而言,无疑是更优的选择。
- 显存效率的飞跃:在处理 1024 帧场景时,Spatial-TTT 的显存占用仅为 11.9GB,相较于行业领先方案(21.2GB)节省超过 40%。更值得一提的是,即使是配备了显式几何编码器的对比模型,在同等帧数下也已难以运行。
Spatial-TTT 的项目导航
- 项目官网:https://liuff19.github.io/Spatial-TTT/
- GitHub 仓库:https://github.com/THU-SI/Spatial-TTT
- HuggingFace 模型库:https://huggingface.co/collections/THU-SI/spatial-ttt
- arXiv 技术论文:https://arxiv.org/pdf/2603.12255
Spatial-TTT 与同类竞品深度对比
| 对比维度 | Spatial-TTT | Gemini-3-pro |
|---|---|---|
| 参数规模 | 2B | 闭源,未公开 |
| 模型性质 | 开源(清华/腾讯混元/NTU) | 闭源(Google) |
| 核心机制 | TTT 快速权重 + 3D 时空卷积 + 混合注意力 | 长上下文 + 多模态预训练 |
| VSI-Bench 平均分 | 64.4 | 56.0 |
| MindCube-Tiny 准确率 | 76.2% | 63.9% |
| 120分钟视频处理 | 稳定运行(Recall 30.0 / Count 38.4) | 未公开支持,长视频易性能崩塌或 OOM |
| 1024帧峰值显存 | 11.9GB | 21.2GB+ |
| 1024帧计算量 | 799.4 TFLOPs | 1403.1 TFLOPs |
| 空间记忆方式 | 在线更新参数化空间状态 | 依赖长上下文窗口缓存 |
Spatial-TTT 的广阔应用前景
- 机器人导航的未来:无论是服务机器人还是家用机器人,在持续移动过程中,Spatial-TTT 能够实时更新空间地图,准确回答“沙发相对于窗户的位置”等问题,并高效规划到达目标点的路径。
- 自动驾驶的智能化升级:在长时程行驶过程中,车辆可以持续积累道路、路口与障碍物的空间关系信息,为复杂的方向判断和距离估算提供强大支持。
- AR/VR 空间交互的革新:头显设备在用户使用过程中,Spatial-TTT 能够持续理解环境布局,实现虚实融合的空间锚定和物体关系查询。
- 智能监控与安防的实时分析:对于长时间视频流,该框架能够进行在线空间分析,追踪物体出现顺序、计数以及位置变化,彻底摆脱了对离线全量处理的依赖。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


