daVinci-MagiHuman – Sand.ai等开源的音视频生成模型
daVinci-MagiHuman,一款由上海创智学院 GAIR 实验室与 Sand.ai 携手打造的创新性音视频联合生成基座模型,正以前所未有的姿态革新内容创作领域。该模型凭借其 150 亿参数的强大单流 Transformer 架构,实现了文本、视频和音频三种模态的无缝融合,彻底摆脱了传统跨注意力机制的束缚。
daVinci-MagiHuman:革新音视频生成
daVinci-MagiHuman 的问世,标志着音视频联合生成技术迈入了新纪元。这款由上海创智学院 GAIR 实验室与 Sand.ai 共同开源的基座模型,集成了 150 亿参数的单流 Transformer 架构,能够同时处理文本、视频和音频信息,而无需依赖复杂的跨注意力机制。其核心优势在于对人物为中心的生成场景有着卓越的表现,并支持中、英、日、韩、德、法等多种语言。令人惊叹的是,在单张 H100 GPU 上,它仅需 2 秒钟即可生成一段长达 5 秒、分辨率为 256p 的视频。与 Ovi 1.1 和 LTX 2.3 等模型相比,daVinci-MagiHuman 分别取得了 80% 和 60.9% 的压倒性优势。目前,其代码、模型权重以及在线演示平台已全面开放。
daVinci-MagiHuman 的核心功能
- 协同生成音视频:该模型能够同步生成包含自然语音和精准口型同步的人物视频,真正实现音画合一的沉浸式体验。
- 多语种支持:daVinci-MagiHuman 能够生成多种语言的语音,包括中文(普通话与粤语)、英文、日文、韩文、德文和法文,满足全球化内容创作的需求。
- 精湛人像演绎:模型专注于人物场景的生成,能够刻画出富有表现力的面部表情、生动的肢体动作以及深刻的情感传达。
- 闪电般的推理速度:在单张 H100 GPU 上,daVinci-MagiHuman 可以在 2 秒内输出 5 秒的 256p 视频,为实时交互应用提供了可能。
- 高清画质升级:借助先进的隐空间超分辨率技术,模型能够将视频分辨率提升至 540p 甚至 1080p 的高清级别。
daVinci-MagiHuman 的技术精髓
- 统一的单流架构:daVinci-MagiHuman 采用了一种创新的单流 Transformer 架构,将文本、视频和音频信息整合到一个拥有 150 亿参数、40 层深度的去噪网络中。通过纯粹的自注意力机制,模型实现了跨模态的联合建模,彻底摒弃了传统的跨注意力或模态专属分支。其“三明治”式的设计,巧妙地在模态特化和深层融合之间取得了平衡:首尾少数层保留模态相关参数,而中间的主干网络则共享参数。此外,模型还引入了无显式时间步条件注入和 Attention-Head 门控等技术,以增强训练的稳定性和表达能力。
- 隐空间超分辨率技术:该模型采用两阶段的生成流程。首先,底模生成低分辨率的音视频隐变量;接着,隐空间超分模型直接在隐空间内完成高分辨率的精细化处理,省去了额外的 VAE 编解码开销。音频隐变量也会被保留并作为输入传递给超分模型,从而确保唇形同步的精确性。
- 推理速度优化策略:在推理阶段,模型采用了轻量级的 Turbo VAE 解码器来降低延迟。同时,集成的自研 MagiCompiler 能够对整个计算图进行优化,通过跨层算子融合实现约 1.2 倍的加速。结合 DMD-2 蒸馏技术,模型仅需 8 步去噪即可生成高质量的视频。
daVinci-MagiHuman 的关键亮点与使用条件
- 模型规模:150 亿参数,40 层 Transformer 深度。
- 架构特色:单流统一架构,完全依赖自注意力机制,无需跨注意力。
- 核心能力:支持文本或图像驱动的人物音视频联合生成。
- 多语种支持:涵盖中文(普通话、粤语)、英文、日文、韩文、德文、法文。
- 生成效率:在单张 H100 GPU 上,2 秒可生成 5 秒 256p 视频;38 秒可生成 1080p 视频。
- 性能卓越:相较于 Ovi 1.1,胜率高达 80.0%;相较于 LTX 2.3,胜率达到 60.9%。
- 硬件要求:推荐使用 NVIDIA GPU(特别是 H100),需支持 CUDA。
- 软件环境:Python 3.12,PyTorch 2.9.0,CUDA 12.x。
- 必备组件:Flash Attention(Hopper 架构)、MagiCompiler(自研编译器)、Turbo VAE。
daVinci-MagiHuman 的突出优势
- 架构简洁高效:采用单流 Transformer 架构,将文本、视频、音频融为一体,摆脱了跨注意力与模态分支的复杂性,简化了系统设计,并为训练和推理优化提供了便利。
- 音画高度同步:原生联合建模确保了语音、口型、表情和动作的完美协调,有效解决了传统方法中音视频语义对齐不足的问题。
- 疾速生成体验:支持在单张 H100 GPU 上实现 2 秒生成 5 秒 256p 视频。通过隐空间超分、Turbo VAE、全图编译和模型蒸馏等技术的结合,实现了接近实时的生成速度。
- 强大的多语言泛化能力:支持包括中文、英文、日文、韩文、德文、法文以及粤语在内的多种语言,能够满足全球化的内容创作需求。
- 卓越的人物表现力:专注于人物中心场景的生成,能够创造出富有情感的面部表情、自然流畅的语音以及逼真的肢体动作,达到极高的演绎级水准。
如何驾驭 daVinci-MagiHuman
- 方案一:Docker 镜像部署
- 获取预编译的 Docker 镜像:使用命令
docker pull sandai/magi-human:latest。 - 启动容器并进行本地目录挂载:执行命令
docker run -it --gpus all --network host --ipc host -v /path/to/repos:/workspace -v /path/to/checkpoints:/models sandai/magi-human:latest bash。 - 在容器内部,安装 MagiCompiler 并克隆 daVinci-MagiHuman 的代码仓库。
- 从 HuggingFace 下载模型权重,并相应地更新配置文件中的路径信息。
- 运行指定的脚本即可开始生成。
- 获取预编译的 Docker 镜像:使用命令
- 方案二:Conda 手动安装
- 创建并激活 Python 3.12 环境:执行命令
conda create -n davinci python=3.12 && conda activate davinci。 - 安装 PyTorch 2.9.0 及相关依赖。
- 编译安装适用于 Hopper 架构的 Flash Attention。
- 克隆并安装 MagiCompiler 和 daVinci-MagiHuman 项目所需的其他依赖。
- 下载 T5 Gemma、Stable Audio、Wan2.2 VAE 等外部模型以及项目所需的权重文件。
- 更新配置文件中的模型路径后,即可运行生成脚本。
- 创建并激活 Python 3.12 环境:执行命令
- 示例运行脚本
- 基础 256p 分辨率视频生成:运行
bash example/base/run.sh。 - 蒸馏快速版 256p(8 步去噪,无 CFG):执行
bash example/distill/run.sh。 - 超分辨率至 540p:运行
bash example/sr_540p/run.sh。 - 超分辨率至 1080p:执行
bash example/sr_1080p/run.sh。
- 基础 256p 分辨率视频生成:运行
daVinci-MagiHuman 的项目链接
- GitHub 仓库:https://github.com/GAIR-NLP/daVinci-MagiHuman
- HuggingFace 模型库:https://huggingface.co/GAIR/daVinci-MagiHuman
- arXiv 技术论文:https://arxiv.org/pdf/2603.21986
- 在线体验 Demo:https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman
daVinci-MagiHuman 与竞品对比
| 对比项 | daVinci-MagiHuman | LTX 2.3 | Ovi 1.1 |
|---|---|---|---|
| 研发机构 | 上海创智学院 GAIR + Sand.ai | Lightricks | Ovi Labs |
| 架构设计 | 单流 Transformer,无跨注意力 | 多流或扩散架构 | 多流架构 |
| 模型规模 | 150 亿参数 | 未公开 | 未公开 |
| 音视频生成能力 | 原生联合建模,同步生成 | 支持 | 支持 |
| 生成速度 | H100 上 2 秒/5 秒 256p | 相对缓慢 | 相对缓慢 |
| 视觉质量评分 | 4.80 | 4.76 | 4.73 |
| 文本对齐评分 | 4.18 | 4.12 | 4.10 |
| 物理一致性评分 | 4.52 | 4.56 | 4.41 |
| 音频质量(WER) | 14.60% | 19.23% | 40.45% |
| 人工评测胜率 | 基准 | 60.9% 胜率 | 80.0% 胜率 |
| 开源程度 | 完整开源(代码+权重+工具链) | 部分开源 | 部分开源 |
| 多语言支持 | 中英日韩德法+粤语 | 有限 | 有限 |
daVinci-MagiHuman 的广阔应用前景
- AI 数字人主播:能够自动生成口型精准、表情自然的带货或新闻播报视频,并可根据不同市场需求适配多语言,极大降低了内容生产成本。
- 虚拟客服与智能助手:借助其逼真的语音交互能力,可以打造更具人情味的智能客服形象,显著提升用户服务体验。
- 影视与广告制作加速:能够快速生物特写镜头、配音初稿或分镜预演,有效缩短前期制作周期,降低成本。
- 教育与培训内容创新:通过生成多语言的教学视频,虚拟讲师可以以生动形象地讲解知识点,提升学习效果。
- 游戏与元宇宙角色赋能:为虚拟角色赋予实时语音驱动能力,实现玩家与游戏内 NPC 之间更自然、更具沉浸感的对话互动。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


粤公网安备 44011502001135号