AudioX-Turbo

AI工具9小时前更新 AI工具集
1 0 0

AudioX-Turbo – Noiz AI 联合清华推出的音频生成框架

AudioX-Turbo:颠覆性音频生成框架,赋能万千创意可能

由 Noiz AI 携手香港科技大学与清华大学共同研发的 AudioX-Turbo,现已隆重推出。这款革新性的统一高效音频生成框架,突破了单一输入模式的局限,能够融合文本、视频与音频等多种模态,精准生成高品质的音效与音乐,为内容创作领域注入全新活力。

AudioX-Turbo 究竟有何与众不同?

AudioX-Turbo 并非简单的音频生成工具,而是一个高度集成的多模态音频创作平台。其核心亮点在于其强大的灵活性和卓越的生成效率。模型基于拥有 2.7B 参数的多模态扩散 Transformer(MMDiT)架构,通过创新的分布匹配蒸馏(DMD)与对抗蒸馏技术,将原本需要 50 至 200 步的推理过程大幅压缩至仅需 4 步。这意味着,在单块 RTX 4090 显卡上,生成一段 10 秒的音频仅需惊人的 0.24 秒。更值得一提的是,团队精心构建了约 920 万样本的 IF-caps-Pro 强指令数据集,首次实现了音频生成中的精确时间戳控制,让创意表达更加得心应手。

AudioX-Turbo 的全能表现:

  • 文字化声景 (T2A):只需一段文字描述,即可生成逼真的环境音、生动的动作音效,精准捕捉声音的类型、风格与场景氛围。
  • 文字谱曲 (T2M):根据文字指令,创造出符合特定风格、乐器配置、节奏与情绪的音乐片段,即使是复杂的乐理要求也能轻松驾驭。
  • 视频配音与拟音 (V2A):为寂静的视频赋予生命,根据画面内容实时匹配恰当的动作音效与环境音,让无声影片“开口说话”。
  • 视频配乐 (V2M):深度分析视频的情绪、节奏与画面动态,自动生成与之完美同步的背景音乐,并支持多种音乐风格选择。
  • 文视融合创作 (TV2A / TV2M):将视频画面与文字指令巧妙结合,实现精细化控制。例如,精准指定“第 3 秒出现雷声,第 5 秒加入一段吉他独奏”,从而实现时间戳级别的音效/音乐生成。
  • 音频的续写与修复:基于现有音频片段,进行智能补全、瑕疵修复或风格迁移,实现音频内容的无缝衔接与降噪优化。
  • 图像即兴配音 (零样本):无需针对性训练,模型即可根据静态图像内容,推断并生成相应的环境音或场景音效,带来意想不到的创意火花。

想要第一时间掌握最新的 AI 开源动态?微信关注并回复“开源”,即可加入AI开源项目交流群

AudioX-Turbo 的技术内核:

  • 多模态扩散 Transformer 架构:AudioX-Turbo 采用了 2.7B 参数的多模态扩散 Transformer(MMDiT),构建于 Flow Matching 框架之上。文本信息通过 T5 编码器提取语义特征,视频内容则由 Synchformer 捕捉时序视觉表征,音频则通过 VAE 编码为隐空间表示。这三种模态经过统一投影后,汇入共享的 Transformer 进行交叉注意力融合,从而实现了在文本、视频、音频任意组合条件下的联合生成。
  • 分布匹配蒸馏与对抗蒸馏:为了将教师模型的长推理步数(50-200 步)压缩至 4 步,研究团队采用了精妙的两阶段蒸馏策略。首先,通过分布匹配蒸馏(DMD)训练学生模型,使其能够精确模仿教师模型的流场分布,实现单步预测即能达到多步结果的效果。随后,引入扩散判别器进行对抗蒸馏,在 4 步的约束下进一步打磨音频细节,使得学生模型在部分客观指标上甚至超越了教师模型。
  • IF-caps-Pro 强指令数据集:团队倾力打造了包含约 920 万样本的 IF-caps-Pro 数据集,其核心创新在于结构化的标注方式。每条数据都附带精确的时间戳、数量、乐器类型及其出现顺序等关键元信息。这使得模型不仅能理解“吉他与鼓点”的静态组合,更能精准执行“先蝉鸣 3 秒,第 5 秒加入吉他,第 8 秒逐渐淡出”等复杂时序指令,极大地增强了模型的可控生成能力。
  • 三阶段渐进训练策略:模型的训练过程分为三个循序渐进的阶段。第一阶段,在纯文本-音频数据上进行预训练,奠定基础的声学理解能力。第二阶段,引入视频数据,将模型扩展至多模态联合生成,学习音画同步关系。第三阶段,执行蒸馏加速,将多步模型压缩至 4 步的极速版本。这一渐进式策略确保了模型在大幅降低推理成本的同时,能够充分保留其多模态理解能力。

如何驾驭 AudioX-Turbo:

  • 环境搭建:首先,克隆 GitHub 仓库,并创建一个 Python 3.8 的开发环境。随后,安装 FFmpeg、libsndfile 以及 requirements.txt 文件中列出的所有依赖包。
  • 权重下载:从 Hugging Face 或 GitHub Release 页面下载 AudioX-Turbo 4 步学生模型、VAE 以及 Synchformer 视频编码器的预训练权重。
  • 启动推理:执行 python run_gradio.py 命令即可启动本地 Web 交互界面,或者直接调用 Python API 加载模型与分词器进行程序化操作。
  • 参数设定:根据具体的任务需求,设置 video_pathtext_promptaudio_path 等输入参数。AudioX-Turbo 支持文本、视频、音频的任意组合输入。
  • 音频生成:执行前向推理,仅需 4 步采样即可生成高质量音频。在 RTX 4090 上,生成 10 秒音频仅需约 0.24 秒,效率惊人。

AudioX-Turbo 的核心竞争力:

  • 瞬时推理速度:4 步采样即可媲美教师模型 100 步的音质,有效采样数(NFE)减少约 25 倍,实现接近实时的音频生成。
  • 统一的多模态处理:单一模型即可支持文本、视频、音频的任意组合输入,无需针对不同任务单独训练专用模型。
  • 精准的指令跟随能力:基于 920 万带时间戳、数量、乐器标注的结构化数据,模型能够精确理解“先蝉鸣后吉他”等复杂时序指令。
  • 卓越的蒸馏效果:基于 Flow Matching 的分布匹配蒸馏(DMD)结合扩散判别器,使得学生模型在部分性能指标上甚至超越了教师模型。

AudioX-Turbo 的项目链接:

  • GitHub 仓库:https://github.com/NoizAI/AudioX-Turbo
  • HuggingFace 模型库:https://huggingface.co/HKUSTAudio/AudioX-Turbo
  • arXiv 技术论文:https://arxiv.org/pdf/2606.12555

AudioX-Turbo 与同类竞品之比较:

维度AudioX-TurboMMAudio
开发团队Noiz AI × 香港科技大学 × 清华大学Sony AI 相关团队
模型参数2.7B(MMDiT)157M(多模态 Transformer)
基础架构多模态扩散 Transformer(Flow Matching)多模态 Transformer + 流匹配(Flow Matching)
推理步数4 步(蒸馏压缩)默认 25 步(可配置 1–50 步)
生成速度RTX 4090 上 10 秒音频仅需 0.24 秒生成 8 秒音频约 1.23 秒
支持模态文本/视频/音频 任意组合(T2A、T2M、V2A、V2M、TV2A、TV2M、音频补全、图像零样本)视频/文本/图像 转音频(V2A、T2A、I2A)
统一模型是(单一模型覆盖所有任务)是(单一模型多模态联合训练)
时间戳控制(精确到秒级顺序、数量、乐器标注)中等(依赖同步模块对齐音画)
指令数据集自研 IF-caps-Pro(约 920 万样本,带时间戳/数量/乐器标注)大规模音视频数据集(含噪声较多)

AudioX-Turbo 的广阔应用前景:

  • 互动叙事与游戏实时配音:其 4 步极速推理能力,为游戏引擎提供了实时拟音与动态配乐的强大支持。
  • 影视后期 Foley 制作新纪元:能够根据无声视频自动生成精准的环境音与动作音效,极大地降低了人工拟音的成本和时间。
  • AI 直播与虚拟主播的音效助手:实时响应画面与观众弹幕,生成恰如其分的伴奏或互动音效。
  • 音乐创作的得力伙伴:通过文字描述即可快速生成参考音乐片段,并支持视频情绪同步配乐,激发创作灵感。
  • 有声内容的自动化生成:结合精确的时间戳控制,可以实现音频顺序的精细编排,特别适合播客、广播剧等场景。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...