daVinci-MagiHuman

daVinci-MagiHuman – Sand.ai等开源的音视频生成模型

daVinci-MagiHuman，一款由上海创智学院 GAIR 实验室与 Sand.ai 携手打造的创新性音视频联合生成基座模型，正以前所未有的姿态革新内容创作领域。该模型凭借其 150 亿参数的强大单流 Transformer 架构，实现了文本、视频和音频三种模态的无缝融合，彻底摆脱了传统跨注意力机制的束缚。

daVinci-MagiHuman：革新音视频生成

daVinci-MagiHuman 的问世，标志着音视频联合生成技术迈入了新纪元。这款由上海创智学院 GAIR 实验室与 Sand.ai 共同开源的基座模型，集成了 150 亿参数的单流 Transformer 架构，能够同时处理文本、视频和音频信息，而无需依赖复杂的跨注意力机制。其核心优势在于对人物为中心的生成场景有着卓越的表现，并支持中、英、日、韩、德、法等多种语言。令人惊叹的是，在单张 H100 GPU 上，它仅需 2 秒钟即可生成一段长达 5 秒、分辨率为 256p 的视频。与 Ovi 1.1 和 LTX 2.3 等模型相比，daVinci-MagiHuman 分别取得了 80% 和 60.9% 的压倒性优势。目前，其代码、模型权重以及在线演示平台已全面开放。

daVinci-MagiHuman 的核心功能

协同生成音视频：该模型能够同步生成包含自然语音和精准口型同步的人物视频，真正实现音画合一的沉浸式体验。
多语种支持：daVinci-MagiHuman 能够生成多种语言的语音，包括中文（普通话与粤语）、英文、日文、韩文、德文和法文，满足全球化内容创作的需求。
精湛人像演绎：模型专注于人物场景的生成，能够刻画出富有表现力的面部表情、生动的肢体动作以及深刻的情感传达。
闪电般的推理速度：在单张 H100 GPU 上，daVinci-MagiHuman 可以在 2 秒内输出 5 秒的 256p 视频，为实时交互应用提供了可能。
高清画质升级：借助先进的隐空间超分辨率技术，模型能够将视频分辨率提升至 540p 甚至 1080p 的高清级别。

daVinci-MagiHuman 的技术精髓

统一的单流架构：daVinci-MagiHuman 采用了一种创新的单流 Transformer 架构，将文本、视频和音频信息整合到一个拥有 150 亿参数、40 层深度的去噪网络中。通过纯粹的自注意力机制，模型实现了跨模态的联合建模，彻底摒弃了传统的跨注意力或模态专属分支。其“三明治”式的设计，巧妙地在模态特化和深层融合之间取得了平衡：首尾少数层保留模态相关参数，而中间的主干网络则共享参数。此外，模型还引入了无显式时间步条件注入和 Attention-Head 门控等技术，以增强训练的稳定性和表达能力。
隐空间超分辨率技术：该模型采用两阶段的生成流程。首先，底模生成低分辨率的音视频隐变量；接着，隐空间超分模型直接在隐空间内完成高分辨率的精细化处理，省去了额外的 VAE 编解码开销。音频隐变量也会被保留并作为输入传递给超分模型，从而确保唇形同步的精确性。
推理速度优化策略：在推理阶段，模型采用了轻量级的 Turbo VAE 解码器来降低延迟。同时，集成的自研 MagiCompiler 能够对整个计算图进行优化，通过跨层算子融合实现约 1.2 倍的加速。结合 DMD-2 蒸馏技术，模型仅需 8 步去噪即可生成高质量的视频。

daVinci-MagiHuman 的关键亮点与使用条件

模型规模：150 亿参数，40 层 Transformer 深度。
架构特色：单流统一架构，完全依赖自注意力机制，无需跨注意力。
核心能力：支持文本或图像驱动的人物音视频联合生成。
多语种支持：涵盖中文（普通话、粤语）、英文、日文、韩文、德文、法文。
生成效率：在单张 H100 GPU 上，2 秒可生成 5 秒 256p 视频；38 秒可生成 1080p 视频。
性能卓越：相较于 Ovi 1.1，胜率高达 80.0%；相较于 LTX 2.3，胜率达到 60.9%。
硬件要求：推荐使用 NVIDIA GPU（特别是 H100），需支持 CUDA。
软件环境：Python 3.12，PyTorch 2.9.0，CUDA 12.x。
必备组件：Flash Attention（Hopper 架构）、MagiCompiler（自研编译器）、Turbo VAE。

daVinci-MagiHuman 的突出优势

架构简洁高效：采用单流 Transformer 架构，将文本、视频、音频融为一体，摆脱了跨注意力与模态分支的复杂性，简化了系统设计，并为训练和推理优化提供了便利。
音画高度同步：原生联合建模确保了语音、口型、表情和动作的完美协调，有效解决了传统方法中音视频语义对齐不足的问题。
疾速生成体验：支持在单张 H100 GPU 上实现 2 秒生成 5 秒 256p 视频。通过隐空间超分、Turbo VAE、全图编译和模型蒸馏等技术的结合，实现了接近实时的生成速度。
强大的多语言泛化能力：支持包括中文、英文、日文、韩文、德文、法文以及粤语在内的多种语言，能够满足全球化的内容创作需求。
卓越的人物表现力：专注于人物中心场景的生成，能够创造出富有情感的面部表情、自然流畅的语音以及逼真的肢体动作，达到极高的演绎级水准。

如何驾驭 daVinci-MagiHuman

方案一：Docker 镜像部署
- 获取预编译的 Docker 镜像：使用命令 docker pull sandai/magi-human:latest。
- 启动容器并进行本地目录挂载：执行命令 docker run -it --gpus all --network host --ipc host -v /path/to/repos:/workspace -v /path/to/checkpoints:/models sandai/magi-human:latest bash。
- 在容器内部，安装 MagiCompiler 并克隆 daVinci-MagiHuman 的代码仓库。
- 从 HuggingFace 下载模型权重，并相应地更新配置文件中的路径信息。
- 运行指定的脚本即可开始生成。
方案二：Conda 手动安装
- 创建并激活 Python 3.12 环境：执行命令 conda create -n davinci python=3.12 && conda activate davinci。
- 安装 PyTorch 2.9.0 及相关依赖。
- 编译安装适用于 Hopper 架构的 Flash Attention。
- 克隆并安装 MagiCompiler 和 daVinci-MagiHuman 项目所需的其他依赖。
- 下载 T5 Gemma、Stable Audio、Wan2.2 VAE 等外部模型以及项目所需的权重文件。
- 更新配置文件中的模型路径后，即可运行生成脚本。
示例运行脚本
- 基础 256p 分辨率视频生成：运行 bash example/base/run.sh。
- 蒸馏快速版 256p（8 步去噪，无 CFG）：执行 bash example/distill/run.sh。
- 超分辨率至 540p：运行 bash example/sr_540p/run.sh。
- 超分辨率至 1080p：执行 bash example/sr_1080p/run.sh。

daVinci-MagiHuman 的项目链接

GitHub 仓库：https://github.com/GAIR-NLP/daVinci-MagiHuman
HuggingFace 模型库：https://huggingface.co/GAIR/daVinci-MagiHuman
arXiv 技术论文：https://arxiv.org/pdf/2603.21986
在线体验 Demo：https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

daVinci-MagiHuman 与竞品对比

对比项	daVinci-MagiHuman	LTX 2.3	Ovi 1.1
研发机构	上海创智学院 GAIR + Sand.ai	Lightricks	Ovi Labs
架构设计	单流 Transformer，无跨注意力	多流或扩散架构	多流架构
模型规模	150 亿参数	未公开	未公开
音视频生成能力	原生联合建模，同步生成	支持	支持
生成速度	H100 上 2 秒/5 秒 256p	相对缓慢	相对缓慢
视觉质量评分	4.80	4.76	4.73
文本对齐评分	4.18	4.12	4.10
物理一致性评分	4.52	4.56	4.41
音频质量（WER）	14.60%	19.23%	40.45%
人工评测胜率	基准	60.9% 胜率	80.0% 胜率
开源程度	完整开源（代码+权重+工具链）	部分开源	部分开源
多语言支持	中英日韩德法+粤语	有限	有限