HoloTime

HoloTime – 北大联合鹏城实验室推出的全景4D场景生成框架

HoloTime

HoloTime 是一个由北京大学深圳研究生院与鹏城实验室共同研发的全景 4D 场景生成框架。该系统利用视频扩散模型技术，能够将单张全景图像转换为动态效果丰富的全景视频，并进一步重构为沉浸式的 4D 场景。HoloTime 采用了 360World 数据集，内含大量固定摄像头拍摄的全景视频，旨在训练 Panoramic Animator，从而生成高质量的全景视频。此外，HoloTime 还推出了 Panoramic Space-Time Reconstruction 技术，通过时空深度估计将全景视频转换为 4D 点云，优化为一致的 4D 高斯点云表示，为用户提供沉浸式的虚拟现实体验。

HoloTime是什么

HoloTime 是由北京大学深圳研究生院与鹏城实验室联合推出的创新性全景 4D 场景生成框架。该系统基于先进的视频扩散模型，能够将静态的全景图像转化为动态的全景视频，并进一步重构为沉浸感极强的 4D 场景。HoloTime 利用 360World 数据集中的丰富数据，确保生成的全景视频具有高质量和真实感，同时通过 Panoramic Space-Time Reconstruction 技术，将视频转换为 4D 点云，为用户提供更为丰富的虚拟现实体验。

HoloTime的主要功能

从全景图像生成动态视频：将静态的全景图像转换为包含丰富动态信息的全景视频，展现物体与场景变化。
从视频重建4D场景：支持将生成的全景视频转换为 4D 点云，进一步优化为一致的 4D 场景表示，便于虚拟漫游和多视角观察。
提供沉浸式体验：生成的 4D 场景为 VR（虚拟现实）和 AR（增强现实）应用提供交互体验，用户可以在场景中探索与移动。

HoloTime的技术原理

Panoramic Animator（全景动画生成器）：
- 双阶段生成策略：首先生成低分辨率的粗略视频以指导全局，随后通过高分辨率细化模型提升局部细节。
- 混合数据微调（Hybrid Data Fine-tuning， HDF）：结合全景视频与相似景观的普通视频数据进行训练，改善模型的泛化能力。
- 全景循环技术（Panoramic Circular Techniques， PCT）：在视频的两端创造重复区域进行混合处理，确保全景视频的水平方向连续性，避免视觉断裂。
Panoramic Space-Time Reconstruction（全景时空重建）：利用全景光流估计模型和窄视场深度估计模型，对全景视频每一帧进行深度估计，确保深度信息在时间和空间上的一致性。将全景视频及其深度图转换为带有时间属性的 4D 点云，作为 4D 场景的初步表示，通过优化 4D 点云的表示，实现一致的 4D 场景重建，支持高效渲染和动态视图合成。
360World 数据集：为 Panoramic Animator 提供了大规模的固定摄像头全景视频数据，涵盖丰富的场景与动态信息，有助于模型学习全景视频生成的规律。