daVinci-MagiHuman

AI工具3分钟前更新 AI工具集
0 0 0

daVinci-MagiHuman – Sand.ai等开源的音视频生成模型

daVinci-MagiHuman,一款由上海创智学院 GAIR 实验室与 Sand.ai 携手打造的创新性音视频联合生成基座模型,正以前所未有的姿态革新内容创作领域。该模型凭借其 150 亿参数的强大单流 Transformer 架构,实现了文本、视频和音频三种模态的无缝融合,彻底摆脱了传统跨注意力机制的束缚。

daVinci-MagiHuman:革新音视频生成

daVinci-MagiHuman 的问世,标志着音视频联合生成技术迈入了新纪元。这款由上海创智学院 GAIR 实验室与 Sand.ai 共同开源的基座模型,集成了 150 亿参数的单流 Transformer 架构,能够同时处理文本、视频和音频信息,而无需依赖复杂的跨注意力机制。其核心优势在于对人物为中心的生成场景有着卓越的表现,并支持中、英、日、韩、德、法等多种语言。令人惊叹的是,在单张 H100 GPU 上,它仅需 2 秒钟即可生成一段长达 5 秒、分辨率为 256p 的视频。与 Ovi 1.1 和 LTX 2.3 等模型相比,daVinci-MagiHuman 分别取得了 80% 和 60.9% 的压倒性优势。目前,其代码、模型权重以及在线演示平台已全面开放。

daVinci-MagiHuman 的核心功能

  • 协同生成音视频:该模型能够同步生成包含自然语音和精准口型同步的人物视频,真正实现音画合一的沉浸式体验。
  • 多语种支持:daVinci-MagiHuman 能够生成多种语言的语音,包括中文(普通话与粤语)、英文、日文、韩文、德文和法文,满足全球化内容创作的需求。
  • 精湛人像演绎:模型专注于人物场景的生成,能够刻画出富有表现力的面部表情、生动的肢体动作以及深刻的情感传达。
  • 闪电般的推理速度:在单张 H100 GPU 上,daVinci-MagiHuman 可以在 2 秒内输出 5 秒的 256p 视频,为实时交互应用提供了可能。
  • 高清画质升级:借助先进的隐空间超分辨率技术,模型能够将视频分辨率提升至 540p 甚至 1080p 的高清级别。

daVinci-MagiHuman 的技术精髓

  • 统一的单流架构:daVinci-MagiHuman 采用了一种创新的单流 Transformer 架构,将文本、视频和音频信息整合到一个拥有 150 亿参数、40 层深度的去噪网络中。通过纯粹的自注意力机制,模型实现了跨模态的联合建模,彻底摒弃了传统的跨注意力或模态专属分支。其“三明治”式的设计,巧妙地在模态特化和深层融合之间取得了平衡:首尾少数层保留模态相关参数,而中间的主干网络则共享参数。此外,模型还引入了无显式时间步条件注入和 Attention-Head 门控等技术,以增强训练的稳定性和表达能力。
  • 隐空间超分辨率技术:该模型采用两阶段的生成流程。首先,底模生成低分辨率的音视频隐变量;接着,隐空间超分模型直接在隐空间内完成高分辨率的精细化处理,省去了额外的 VAE 编解码开销。音频隐变量也会被保留并作为输入传递给超分模型,从而确保唇形同步的精确性。
  • 推理速度优化策略:在推理阶段,模型采用了轻量级的 Turbo VAE 解码器来降低延迟。同时,集成的自研 MagiCompiler 能够对整个计算图进行优化,通过跨层算子融合实现约 1.2 倍的加速。结合 DMD-2 蒸馏技术,模型仅需 8 步去噪即可生成高质量的视频。

daVinci-MagiHuman 的关键亮点与使用条件

  • 模型规模:150 亿参数,40 层 Transformer 深度。
  • 架构特色:单流统一架构,完全依赖自注意力机制,无需跨注意力。
  • 核心能力:支持文本或图像驱动的人物音视频联合生成。
  • 多语种支持:涵盖中文(普通话、粤语)、英文、日文、韩文、德文、法文。
  • 生成效率:在单张 H100 GPU 上,2 秒可生成 5 秒 256p 视频;38 秒可生成 1080p 视频。
  • 性能卓越:相较于 Ovi 1.1,胜率高达 80.0%;相较于 LTX 2.3,胜率达到 60.9%。
  • 硬件要求:推荐使用 NVIDIA GPU(特别是 H100),需支持 CUDA。
  • 软件环境:Python 3.12,PyTorch 2.9.0,CUDA 12.x。
  • 必备组件:Flash Attention(Hopper 架构)、MagiCompiler(自研编译器)、Turbo VAE。

daVinci-MagiHuman 的突出优势

  • 架构简洁高效:采用单流 Transformer 架构,将文本、视频、音频融为一体,摆脱了跨注意力与模态分支的复杂性,简化了系统设计,并为训练和推理优化提供了便利。
  • 音画高度同步:原生联合建模确保了语音、口型、表情和动作的完美协调,有效解决了传统方法中音视频语义对齐不足的问题。
  • 疾速生成体验:支持在单张 H100 GPU 上实现 2 秒生成 5 秒 256p 视频。通过隐空间超分、Turbo VAE、全图编译和模型蒸馏等技术的结合,实现了接近实时的生成速度。
  • 强大的多语言泛化能力:支持包括中文、英文、日文、韩文、德文、法文以及粤语在内的多种语言,能够满足全球化的内容创作需求。
  • 卓越的人物表现力:专注于人物中心场景的生成,能够创造出富有情感的面部表情、自然流畅的语音以及逼真的肢体动作,达到极高的演绎级水准。

如何驾驭 daVinci-MagiHuman

  • 方案一:Docker 镜像部署
    • 获取预编译的 Docker 镜像:使用命令 docker pull sandai/magi-human:latest
    • 启动容器并进行本地目录挂载:执行命令 docker run -it --gpus all --network host --ipc host -v /path/to/repos:/workspace -v /path/to/checkpoints:/models sandai/magi-human:latest bash
    • 在容器内部,安装 MagiCompiler 并克隆 daVinci-MagiHuman 的代码仓库。
    • 从 HuggingFace 下载模型权重,并相应地更新配置文件中的路径信息。
    • 运行指定的脚本即可开始生成。
  • 方案二:Conda 手动安装
    • 创建并激活 Python 3.12 环境:执行命令 conda create -n davinci python=3.12 && conda activate davinci
    • 安装 PyTorch 2.9.0 及相关依赖。
    • 编译安装适用于 Hopper 架构的 Flash Attention。
    • 克隆并安装 MagiCompiler 和 daVinci-MagiHuman 项目所需的其他依赖。
    • 下载 T5 Gemma、Stable Audio、Wan2.2 VAE 等外部模型以及项目所需的权重文件。
    • 更新配置文件中的模型路径后,即可运行生成脚本。
  • 示例运行脚本
    • 基础 256p 分辨率视频生成:运行 bash example/base/run.sh
    • 蒸馏快速版 256p(8 步去噪,无 CFG):执行 bash example/distill/run.sh
    • 超分辨率至 540p:运行 bash example/sr_540p/run.sh
    • 超分辨率至 1080p:执行 bash example/sr_1080p/run.sh

daVinci-MagiHuman 的项目链接

  • GitHub 仓库:https://github.com/GAIR-NLP/daVinci-MagiHuman
  • HuggingFace 模型库:https://huggingface.co/GAIR/daVinci-MagiHuman
  • arXiv 技术论文:https://arxiv.org/pdf/2603.21986
  • 在线体验 Demo:https://huggingface.co/spaces/SII-GAIR/daVinci-MagiHuman

daVinci-MagiHuman 与竞品对比

对比项daVinci-MagiHumanLTX 2.3Ovi 1.1
研发机构上海创智学院 GAIR + Sand.aiLightricksOvi Labs
架构设计单流 Transformer,无跨注意力多流或扩散架构多流架构
模型规模150 亿参数未公开未公开
音视频生成能力原生联合建模,同步生成支持支持
生成速度H100 上 2 秒/5 秒 256p相对缓慢相对缓慢
视觉质量评分4.804.764.73
文本对齐评分4.184.124.10
物理一致性评分4.524.564.41
音频质量(WER)14.60%19.23%40.45%
人工评测胜率基准60.9% 胜率80.0% 胜率
开源程度完整开源(代码+权重+工具链)部分开源部分开源
多语言支持中英日韩德法+粤语有限有限

daVinci-MagiHuman 的广阔应用前景

  • AI 数字人主播:能够自动生成口型精准、表情自然的带货或新闻播报视频,并可根据不同市场需求适配多语言,极大降低了内容生产成本。
  • 虚拟客服与智能助手:借助其逼真的语音交互能力,可以打造更具人情味的智能客服形象,显著提升用户服务体验。
  • 影视与广告制作加速:能够快速生物特写镜头、配音初稿或分镜预演,有效缩短前期制作周期,降低成本。
  • 教育与培训内容创新:通过生成多语言的教学视频,虚拟讲师可以以生动形象地讲解知识点,提升学习效果。
  • 游戏与元宇宙角色赋能:为虚拟角色赋予实时语音驱动能力,实现玩家与游戏内 NPC 之间更自然、更具沉浸感的对话互动。
阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...