LinGen

LinGen – Meta联合普林斯顿大学推出的文本到视频生成框架

LinGen 是一款由普林斯顿大学和Meta联合推出的创新型文本到视频生成框架，它凭借线性复杂度的 MATE 模块，颠覆了传统 Diffusion Transformers 中自注意力机制的局限。LinGen 能够在单个 GPU 上高效生成高分辨率、分钟级时长的视频，在视频质量和生成效率上均超越现有模型，为长视频创作和实时交互式视频应用开辟了崭新道路。

LinGen：视频生成领域的革新者

LinGen 是一项前沿的文本到视频生成技术，由普林斯顿大学和Meta携手打造。它巧妙地运用了线性复杂度的 MATE 模块（包括 MA-branch 和 TE-branch），取代了传统 Diffusion Transformers 中计算量巨大的自注意力机制。这项创新使得 LinGen 能够以极高的效率在单个 GPU 上生成高质量、高分辨率的分钟级视频。LinGen 不仅大幅降低了计算负担，同时还能保持卓越的视频输出质量，在视频质量和生成效率上均超越了现有的先进模型，为长视频生成和实时交互式视频应用奠定了坚实的基础。

核心特性：LinGen 的卓越之处

高清视频创作：支持生成高达 512p 乃至 1024p 分辨率的视频，满足对画面质量有极致要求的创作需求。
长时视频生成：打破传统模型只能生成短视频的束缚，支持生成分钟级时长的视频，拓展视频创作的边界。
线性计算复杂度：基于线性复杂度的 MATE 模块，显著降低计算成本，让视频生成过程更高效，尤其适合在单 GPU 环境下运行。
高品质视频输出：生成的视频在视觉效果和文本对齐方面与现有顶尖模型媲美，同时保持了出色的帧间一致性。
实时交互式视频应用：为实时交互式视频生成和编辑提供了可能性，适用于各种动态内容创作场景。

技术解析：LinGen 的核心原理

MA-branch（多尺度注意力分支）：
- 双向 Mamba2 模块：采用双向设计的 Mamba2，这是一款高效的线性复杂度序列模型，能够捕捉序列中的双向依赖关系。
- Rotary Major Scan (RMS)：通过空间行优先、空间列优先、时间行优先、时间列优先等不同的扫描方式重新排列 3D 视频 token 张量，增强短距离相关性，同时降低计算延迟。
- Review Tokens：在序列处理前加入平均池化的 token 序列，提供对整个序列的全局概览，增强长距离相关性。
TE-branch（时间注意力分支）：将 3D 视频 token 张量分割成小窗口，在窗口内计算自注意力，TESA 能够捕捉空间上相邻和时间上中等距离的 token 之间的相关性。窗口在不同层之间交替移动，从而扩大感受野并增强视频的一致性。
线性复杂度优势：得益于 MATE 模块的设计，LinGen 的计算复杂度与生成视频的像素数量成正比，而非传统模型的二次方关系。这使得 LinGen 能够在保持高质量输出的同时，大幅降低计算成本，提升生成效率。
训练策略：LinGen 采用了渐进式训练策略，先在低分辨率的文本到图像任务上进行预训练，然后逐步增加视频分辨率和长度进行预训练。在文本到视频预训练阶段，结合文本-图像对进行混合训练，以提升生成视频的连贯性。通过在高质量视频数据集上进行微调，进一步增强生成视频的质量。