SkyReels-V2

SkyReels-V2 – 昆仑万维开源的无限时长电影生成模型

SkyReels-V2

SkyReels-V2是什么

SkyReels-V2是由昆仑万维的SkyReels团队研发的一款无限时长的电影生成模型。该模型采用了扩散（Diffusion-forcing）框架，并结合了多模态大语言模型（MLLM）、多阶段预训练以及强化学习等先进技术，能够生成高质量且长度不受限制的视频内容。SkyReels-V2有效解决了当前技术在提示词遵循、视觉质量、动态和视频时长协调等方面的诸多挑战，支持多种应用场景，包括故事生成、图像转视频合成、摄像导演功能以及多主体一致性视频生成等。该模型及其相关代码已开源，为创意内容制作和虚拟仿真领域提供了强大的支持工具。

SkyReels-V2的主要功能

无限时长视频生成：该模型能够生成理论上无限时长的视频内容，打破了传统视频生成模型在时长上的限制。
故事生成：依据叙事文本提示，编排复杂的多动作序列，从而实现动态叙事效果。
图像转视频合成：提供两种转换方法，包括微调全序列文本到视频扩散模型（SkyReels-V2-I2V）和扩散模型结合帧条件（SkyReels-V2-DF），将静态图像转变为连贯的视频。
摄像导演功能：能够生成流畅且多样的摄像机效果，提升视频的艺术表现力。
元素到视频生成：可将任意视觉元素（如人物、物体和背景）结合成由文本提示引导的连贯视频，适用于短剧、音乐视频和虚拟电商内容创作等。

SkyReels-V2的技术原理

多模态大语言模型（MLLM）：利用多模态大语言模型生成视频的初始描述，并结合子专家模型（如镜头类型、角度、位置、表情和摄像机等），提供更详尽的镜头语言描述，从而显著提升生成视频的提示词遵循能力。
多阶段预训练：
- 渐进式分辨率预训练：从低分辨率（256p）逐步提升至高分辨率（720p），增强模型的生成能力。
- 多阶段后训练优化：包括初始概念平衡的监督微调（SFT）、特定的强化学习（RL）训练、扩散框架（DF）训练和高质量SFT，确保模型在多个方面达到最佳性能。
强化学习（Reinforcement Learning， RL）：通过强化学习优化质量，解决现有模型在动态性、流畅性和物理合理性方面的不足。采用半自动数据收集管道生成偏好对比数据对，训练奖励模型并进行直接偏好优化（DPO），提升表现。
扩散框架（Diffusion Forcing）：为每一帧分配的噪声水平，从而实现视频生成的无限扩展能力。通过非递减噪声时间表，将连续帧的去噪时间表搜索空间从_O_(1 e 48)降低至_O_(1 e 32)，显著提升生成效率。
高效的数据处理与优化：整合通用数据集、自收集媒体和艺术资源库，经过多阶段过滤和标注，以确保训练数据的质量。利用FP8量化、多GPU并行和模型蒸馏等技术，大幅减少推理时间和计算成本，提高模型的实用性。