Solaris

Solaris – 谢赛宁研究团队开源的多人视频世界生成模型

Solaris：首个突破性多人虚拟世界生成引擎

想象一下，在虚拟的Minecraft世界中，两个玩家的视角不再是孤立的孤岛，而是彼此呼应、同步演变的生动画卷。Solaris，一个划时代的创新模型，正将这一愿景变为现实。它不仅是首个能够同时生成两个玩家一致第一人称视角视频的引擎，更重要的是，它彻底打破了以往模型仅限于单人世界的局限，确保了跨玩家视角的无缝空间一致性。这意味着，当一位玩家挥动镐子、建造一砖一瓦，或是进行任何形式的移动时，另一位玩家的视角将即时、准确地反映出这些动态变化，带来前所未有的沉浸式多人互动体验。

为了实现这一壮举，Solaris的开发者们倾注了大量心血，自主研发了强大的SolarisEngine数据系统。该系统成功收集了高达1260万帧的多人游戏数据，并在此基础上，创新性地推出了Checkpointed Self Forcing训练方法。这项技术巧妙地解决了长序列生成过程中常见的内存瓶颈问题，为Solaris的稳定输出奠定了坚实基础。

Solaris的核心亮点

双人视角同步演绎：Solaris最引人注目的能力在于其能够为两位玩家同时生成高度一致的第一人称视频流。这种同步生成机制确保了游戏世界在不同视角下的空间逻辑完美契合，任何一方的操作都会实时体现在另一方的视野中，极大地增强了多人游戏的临场感和互动性。
卓越的长时序生成能力：借助其独创的Checkpointed Self Forcing技术，Solaris能够生成长达224帧（约11.2秒）的稳定视频序列。这一突破有效抑制了因误差累积而导致的视觉退化现象，保证了视频的连贯性和质量，即使在长时间的生成过程中也能保持高度的准确性。
精密的动作条件控制：Solaris能够精准地接收并理解完整的Minecraft游戏动作指令，涵盖了移动、相机调整、挖掘、放置等所有玩家可能的操作。生成的视频内容将严格遵循这些输入的动作序列，确保了高度的可控性和可预测性。
复杂动态的逼真模拟：该模型不仅能处理基本的视角同步，还能模拟更加复杂的游戏场景，例如背包状态的同步更新、天气条件的动态变化、物理建造与破坏过程，甚至包括激烈的PvP战斗。这些能力的集成，使得Solaris能够更全面、更真实地展现多人游戏世界的动态魅力。

Solaris的创新技术基石

多人DiT架构的革新：在MatrixGame 2.0单玩家扩散Transformer的基础上，Solaris进行了深度拓展。它能够支持完整的Minecraft动作输入，并通过引入创新的跨玩家自注意力层，实现了双玩家间的信息高效交换。玩家ID嵌入的设计则巧妙地区分了不同视角，而交叉注意力与前馈网络（FFN）等核心模块则沿用了单玩家模型的成熟设计，实现了技术上的平滑过渡与升级。
四阶段渐进式训练策略：Solaris的训练过程并非一蹴而就，而是采取了精巧的四阶段渐进式策略。从已有的单玩家预训练权重出发，首先在VPT数据集上进行微调，使其能够更好地适配Minecraft的动作空间。随后，模型切换到规模庞大的多人数据进行训练，构建起双向模型作为“教师”。接着，将其转化为滑动窗口生成器，通过Checkpointed Self Forcing技术实现长序列的稳定生成。
Checkpointed Self Forcing：内存瓶颈的终结者：为了克服滑动窗口自回归方法在处理长序列时出现的内存占用过高的问题，Checkpointed Self Forcing应运而生。该方法通过在无梯度环境下生成并缓存“干净”帧与噪声状态，再利用自定义的注意力掩码进行单次并行重计算，从而精确复现了滑动窗口的依赖关系。这一创新将内存占用从O(Lt⋅Ls)大幅降低至O(Lt)，同时通过KV缓存的梯度回传，进一步提升了生成视频的质量。
SolarisEngine数据系统：海量多人数据的基石：针对现有框架在多人数据支持上的不足，Solaris团队构建了一个强大的数据采集与处理系统。该系统采用Mineflayer控制器与官方Minecraft客户端分离的相机架构，通过服务器插件实现状态的实时同步，并利用Docker容器化技术实现并行扩展和故障的自动恢复。最终，成功汇聚了包含1260万帧动作标注的多人游戏数据，为模型的训练提供了坚实的数据支撑。

Solaris的未来展望与应用

具身智能的训练与评估新平台：作为一款先进的多智能体世界模拟器，Solaris能够为机器人和游戏AI提供海量、高质量的合成训练数据。这为策略学习、推理时规划以及安全评估提供了极大的便利，有效避免了在真实环境中进行试错所带来的高昂成本与风险。
多智能体协作研究的沃土：Solaris能够精确模拟多人协同任务，如团队共同建造或协同作战等场景。这为训练AI代理的协作与通信能力提供了理想的实验环境，有助于深入研究涌现行为和团队智能的发展规律。
视觉-语言-动作（VLA）模型的加速器：该模型能够生成大规模、多视角的视频-动作-语言对齐数据，极大地弥补了真实人类多人交互数据在数量和多样性上的不足。这为VLA模型的预训练和微调提供了宝贵的资源，有望推动相关领域的研究进展。
3D场景理解与空间推理的基准测试：Solaris提供了一个高度可控的测试平台，能够用于评估模型在视角一致性、物体持久性、空间记忆等关键3D理解能力上的表现。这为量化和提升AI在复杂三维环境中的感知和推理能力提供了重要的衡量标准。

阅读原文