MAGI-1

MAGI-1 – Sand AI 开源的首个自回归视频生成模型

MAGI-1

MAGI-1 是 Sand AI 开源的全球首个自回归视频生成大模型，采用先进的自回归架构，能够通过逐块预测生成流畅自然的视频。其独特的技术使得支持无限延展的长视频生成成为可能，且实现了一镜到底的效果。

MAGI-1是什么

MAGI-1 是 Sand AI 开发的全球首个自回归视频生成大模型，凭借自回归架构，通过逐块预测视频序列，能够生成流畅且自然的视频。其原生分辨率高达 1440×2568，生成的视频具备流畅的动作和逼真的细节。同时，MAGI-1 还具备可控生成能力，用户可以通过分块提示实现平滑的场景转换和细粒度的内容控制。

MAGI-1的主要功能

高效视频生成：MAGI-1 可在短时间内生成高质量的视频片段，例如生成 5 秒的视频仅需 3 秒，而生成 1 分钟的视频则可以在 1 分钟内完成。通过分块生成（每块 24 帧），逐块去噪并并行处理，从而显著提高了生成效率。
高保真输出：所生成的视频具备高分辨率（原生 1440×2568），动作流畅且细节真实，满足多种高质量视频创作需求。
无限扩展与时间轴控制：支持无限长度扩展，能够无缝续写生成连续的长视频场景，并具备秒级时间轴控制能力，用户可以通过逐块提示实现精细化的场景转换和编辑。
可控生成：MAGI-1 支持平滑的场景过渡、长视距合成及细粒度的文本驱动控制，能够根据用户的文本指令生成符合需求的视频内容。
物理行为预测：在物理行为预测方面表现优异，能够生成符合物理规律的动作和场景，适合复杂动态场景的生成。
实时部署与灵活推理：支持实时流式视频生成，适配多种硬件配置，包括单张 RTX 4090 GPU 的部署，降低了使用门槛。

MAGI-1的技术原理

自回归去噪算法：MAGI-1 采用自回归去噪的方式生成视频，将视频划分为固定长度的片段（每块 24 帧），逐块进行去噪处理。当前一个片段达到一定去噪水平后，便开始生成下一个片段。这种流水线设计最多可同时处理四个片段，大幅提升了生成效率。
基于 Transformer 的 VAE：模型使用基于 Transformer 架构的变分自编码器（VAE），实现了 8 倍空间压缩和 4 倍时间压缩。解码速度快，具备高竞争力的重建质量。
扩散模型架构：MAGI-1 基于 Diffusion Transformer 构建，融入了多项创新技术，如块因果注意力、并行注意力块、QK-Norm、GQA、三明治归一化、SwiGLU 和 Softcap Modulation 等，提高了大规模训练的效率和稳定性。
蒸馏算法：MAGI-1 采用一种高效的蒸馏方法，训练了一个基于速度的模型，支持不同的推理预算。通过执行自一致性约束（将一个大步长等同于两个小步长），模型能在多个步长范围内逼近流匹配轨迹，实现高效推理。