Lyra 2.0

Lyra 2.0 – 英伟达开源的可探索生成式 3D 世界框架

Lyra 2.0，由 NVIDIA 倾力打造，是一款革新性的生成式三维世界探索框架。它以一张静态图像为起点，巧妙融合了相机路径引导的视频生成技术与高效的前馈式三维重建能力。通过一套精妙的“检索-生成-更新”迭代机制，Lyra 2.0 能够构建出规模宏大且可供用户漫游的持久性三维场景。

Lyra 2.0：开启三维世界生成新纪元

Lyra 2.0 标志着 NVIDIA 在三维内容生成领域的一大突破。该框架能够从一张普通的图像出发，结合用户定义的相机轨迹来生成逼真的视频，并运用前馈式三维重建技术，快速构建出三维场景。其核心在于“检索-生成-更新”的循环过程，使得生成的场景不仅具有视觉吸引力，更能实现持久漫游和大规模扩展。为了应对长程生成中的挑战，Lyra 2.0 引入了基于每帧三维几何信息的空间记忆检索机制，并采用了自增强训练策略来抑制视频生成过程中常见的“时间漂移”现象，从而确保了数百帧长距离生成的三维一致性。最终，Lyra 2.0 生成的内容可以被转化为高保真的三维高斯溅射（Gaussian Splatting）或表面网格模型，并能直接导入 NVIDIA Isaac Sim 等强大的物理引擎，为具身智能的训练提供了一个高度交互和逼真的仿真环境。

Lyra 2.0 的核心亮点

超长程三维一致视频生成：系统能够沿着用户设定的相机路径，生成长达数百帧的沉浸式漫游视频，即使在视角发生巨大变化或区域被多次重访时，也能保持高度的视觉一致性。
智能空间记忆检索：通过为每一帧生成的视频建立的三维几何缓存，Lyra 2.0 能够智能地检索并利用历史帧中最相关的空间信息，作为生成新帧的依据。
强效抗时间漂移技术：借助创新的自增强训练方法，模型在自回归推理过程中能够主动纠正潜在的误差累积，从而有效防止视觉上的时间漂移，维持长期的连贯性。
交互式三维场景探索器：提供了一个直观的图形用户界面（GUI），允许用户可视化累积的三维点云，并规划相机轨迹，实现对已知区域的重访或对未知区域的探索。
高效前馈式三维重建：生成的视频序列可以通过一个经过微调的前馈模型，快速转化为高保真度的三维高斯溅射表示以及精细的表面网格模型。
仿真资产无缝导出：生成的 3D 模型可以直接导出至 NVIDIA Isaac Sim 等领先的物理仿真平台，为机器人导航、行为学习等具身智能任务提供理想的训练场。
推理速度优化版本：特别推出基于分布匹配蒸馏技术的四步去噪学生模型，将推理速度提升了约 13 倍，大大提高了生成效率。

Lyra 2.0 的技术基石

生成式重建新范式：Lyra 2.0 巧妙地结合了具备强大视觉保真度的相机控制视频扩散模型与高效的前馈三维重建技术，将单张图像和相机轨迹转化为可实时渲染的三维输出。
几何路由与外观合成解耦：框架维护着一个每帧的三维几何缓存（包含深度图和点云），该缓存仅用于信息检索和建立精确的三维对应关系。而实际的像素合成则由视频扩散模型的生成先验来完成，有效避免了渲染伪影的传播。
规范坐标扭曲注入：通过将检索到的历史帧信息进行深度前向扭曲，生成规范坐标图和深度图，并结合位置编码和多层感知机（MLP）处理后注入到 DiT 模型的自注意力层，为模型提供了精确的几何对齐信号。
自增强抗漂移训练策略：在训练过程中，通过以一定的概率对历史隐变量进行加噪并用单步去噪结果替换，迫使模型即使在条件不完美的情况下也能恢复出干净的目标，从而缩小了训练与推理之间的分布差异。
FramePack 上下文压缩技术：采用可变核的 patchification 方法对时间历史信息进行压缩，近帧细节丰富，远帧粒度粗糙，在有限的 token 预算内极大地扩展了有效上下文窗口。
定制化前馈重建模型：基于 Depth Anything v3 模型进行改进，特别是在高分辨率下的高斯预测密度方面进行了优化，并在 Lyra 2.0 生成的数据集上进行了微调，使其对生成数据中的伪影具有更强的鲁棒性。

如何驾驭 Lyra 2.0

代码库克隆与环境配置：首先，从 GitHub 仓库克隆 Lyra 2.0 的源代码，并按照 README 文件中的说明配置好所有环境依赖。
获取预训练模型：从 Hugging Face 或项目官方页面下载 Lyra 2.0 的预训练权重。
准备输入数据：提供一张场景的 RGB 图像作为输入，同时可以选择性地添加文本提示来引导生成内容的风格。
启动交互式探索器：运行提供的交互式 GUI，加载您的输入图像，并规划您想要漫游的相机轨迹。
进行迭代式生成：系统将自动检索空间记忆中的相关历史帧，并逐段生成长程视频序列。
执行三维重建：利用微调后的前馈模型，将生成的视频序列转化为三维高斯溅射表示。
提取表面网格：运行相应的脚本，可以输出包含分层稀疏网格信息的表面 Mesh 模型。
导出与部署应用：将生成的三维资产导入 NVIDIA Isaac Sim 等物理引擎，开始进行具身智能的训练。

Lyra 2.0 的关键信息与使用要求概览

项目定位：Lyra 2.0 是 NVIDIA 发布的一款开源框架，旨在从单一图像出发，通过迭代生成的方式构建可持久漫游、大规模且具有探索性的三维世界。
核心技术亮点：基于 Wan 2.1 VAE 和 DiT 的视频扩散模型，采用“检索-生成-更新”的自回归循环。通过每帧的三维几何缓存克服了空间遗忘问题，并通过自增强训练有效抑制了时间漂移。
输入与输出：输入包括一张 RGB 图像、可选的文本提示以及相机轨迹；输出为长程相机控制视频，该视频可进一步重建为三维高斯溅射和表面网格，并支持导出至物理引擎。
性能优化成果：提供了一个基于分布匹配蒸馏的四步加速模型，显著提升了推理速度，约可达 13 倍。
硬件环境要求：需要配备 NVIDIA GPU，推荐使用高显存显卡以支持长视频生成和三维重建任务。CUDA 环境是必需的。
软件依赖列表：主要依赖 PyTorch、diffusers、transformers、FramePack、Depth Anything V3、OpenVDB 等库。详细版本信息请参考项目仓库中的 requirements.txt 文件。

Lyra 2.0 的卓越优势

全局空间持久性保障：通过的每帧几何缓存和可见性检索机制，有效地解决了长程生成过程中可能出现的空间遗忘问题，确保重访区域的结构一致性。
长期视觉稳定性实现：其自增强训练方法能够有效抑制自回归过程中误差的累积，相比现有基线方法，显著减少了颜色漂移和几何畸变。
高品质三维输出保障：前馈重建模型针对生成数据进行了专门微调，能够容忍轻微的多视图不一致性，产出清晰、连贯的三维高斯溅射和网格模型。
高度交互与可控性：用户可以实时规划任意长度的相机轨迹，系统能够渐进式地扩展场景，而非一次性的“黑盒”生成，提供了极大的灵活性和控制力。

Lyra 2.0 的项目链接

官方项目网站：https://research.nvidia.com/labs/sil/projects/lyra2/
GitHub 代码仓库：https://github.com/nv-tlabs/lyra
HuggingFace 模型中心：https://huggingface.co/nvidia/Lyra-2.0
技术论文 (arXiv)：https://arxiv.org/pdf/2604.13036

Lyra 2.0 与同类竞品的比较分析

维度	Lyra 2.0	GEN3C	Wonderland
技术路线	视频生成结合前馈三维重建，几何与外观处理解耦。	视频生成与全局三维表示条件生成，设计紧密耦合。	相机控制视频扩散模型与专用前馈网络预测三维高斯溅射。
记忆机制	利用每帧的三维缓存，仅用于信息路由和对应关系建立。	累积全局点云或深度渲染图作为生成条件。	无显式空间记忆机制，依赖视频模型自身的时间上下文。
长程一致性	支持大视角变化和区域重访，可达数百帧，有效抵抗时间漂移。	受限于全局三维表示的质量，误差可能被放大。	视角覆盖范围有限，长程一致性并非其核心关注点。
交互方式	通过显式相机轨迹规划，并可辅以文本提示。	显式的相机轨迹控制，并整合三维条件。	主要通过显式相机轨迹进行控制。
输出格式	三维高斯溅射与表面网格，支持导出至物理引擎。	输出包括视频和三维内容。	输出为三维高斯溅射。
训练数据	使用 DL3DV 真实场景长视频，并辅以自增强策略。	训练方案细节未公开。	训练方案细节未公开。
推理效率	提供加速模型，推理速度提升约 13 倍。	采用标准的扩散采样过程。	采用标准的扩散采样过程。