AudioX-Turbo

AudioX-Turbo – Noiz AI 联合清华推出的音频生成框架

AudioX-Turbo：颠覆性音频生成框架，赋能万千创意可能

由 Noiz AI 携手香港科技大学与清华大学共同研发的 AudioX-Turbo，现已隆重推出。这款革新性的统一高效音频生成框架，突破了单一输入模式的局限，能够融合文本、视频与音频等多种模态，精准生成高品质的音效与音乐，为内容创作领域注入全新活力。

AudioX-Turbo 究竟有何与众不同？

AudioX-Turbo 并非简单的音频生成工具，而是一个高度集成的多模态音频创作平台。其核心亮点在于其强大的灵活性和卓越的生成效率。模型基于拥有 2.7B 参数的多模态扩散 Transformer（MMDiT）架构，通过创新的分布匹配蒸馏（DMD）与对抗蒸馏技术，将原本需要 50 至 200 步的推理过程大幅压缩至仅需 4 步。这意味着，在单块 RTX 4090 显卡上，生成一段 10 秒的音频仅需惊人的 0.24 秒。更值得一提的是，团队精心构建了约 920 万样本的 IF-caps-Pro 强指令数据集，首次实现了音频生成中的精确时间戳控制，让创意表达更加得心应手。

AudioX-Turbo 的全能表现：

文字化声景 (T2A)：只需一段文字描述，即可生成逼真的环境音、生动的动作音效，精准捕捉声音的类型、风格与场景氛围。
文字谱曲 (T2M)：根据文字指令，创造出符合特定风格、乐器配置、节奏与情绪的音乐片段，即使是复杂的乐理要求也能轻松驾驭。
视频配音与拟音 (V2A)：为寂静的视频赋予生命，根据画面内容实时匹配恰当的动作音效与环境音，让无声影片“开口说话”。
视频配乐 (V2M)：深度分析视频的情绪、节奏与画面动态，自动生成与之完美同步的背景音乐，并支持多种音乐风格选择。
文视融合创作 (TV2A / TV2M)：将视频画面与文字指令巧妙结合，实现精细化控制。例如，精准指定“第 3 秒出现雷声，第 5 秒加入一段吉他独奏”，从而实现时间戳级别的音效/音乐生成。
音频的续写与修复：基于现有音频片段，进行智能补全、瑕疵修复或风格迁移，实现音频内容的无缝衔接与降噪优化。
图像即兴配音 (零样本)：无需针对性训练，模型即可根据静态图像内容，推断并生成相应的环境音或场景音效，带来意想不到的创意火花。

想要第一时间掌握最新的 AI 开源动态？微信关注并回复“开源”，即可加入AI开源项目交流群。

AudioX-Turbo 的技术内核：

多模态扩散 Transformer 架构：AudioX-Turbo 采用了 2.7B 参数的多模态扩散 Transformer（MMDiT），构建于 Flow Matching 框架之上。文本信息通过 T5 编码器提取语义特征，视频内容则由 Synchformer 捕捉时序视觉表征，音频则通过 VAE 编码为隐空间表示。这三种模态经过统一投影后，汇入共享的 Transformer 进行交叉注意力融合，从而实现了在文本、视频、音频任意组合条件下的联合生成。
分布匹配蒸馏与对抗蒸馏：为了将教师模型的长推理步数（50-200 步）压缩至 4 步，研究团队采用了精妙的两阶段蒸馏策略。首先，通过分布匹配蒸馏（DMD）训练学生模型，使其能够精确模仿教师模型的流场分布，实现单步预测即能达到多步结果的效果。随后，引入扩散判别器进行对抗蒸馏，在 4 步的约束下进一步打磨音频细节，使得学生模型在部分客观指标上甚至超越了教师模型。
IF-caps-Pro 强指令数据集：团队倾力打造了包含约 920 万样本的 IF-caps-Pro 数据集，其核心创新在于结构化的标注方式。每条数据都附带精确的时间戳、数量、乐器类型及其出现顺序等关键元信息。这使得模型不仅能理解“吉他与鼓点”的静态组合，更能精准执行“先蝉鸣 3 秒，第 5 秒加入吉他，第 8 秒逐渐淡出”等复杂时序指令，极大地增强了模型的可控生成能力。
三阶段渐进训练策略：模型的训练过程分为三个循序渐进的阶段。第一阶段，在纯文本-音频数据上进行预训练，奠定基础的声学理解能力。第二阶段，引入视频数据，将模型扩展至多模态联合生成，学习音画同步关系。第三阶段，执行蒸馏加速，将多步模型压缩至 4 步的极速版本。这一渐进式策略确保了模型在大幅降低推理成本的同时，能够充分保留其多模态理解能力。

如何驾驭 AudioX-Turbo：

环境搭建：首先，克隆 GitHub 仓库，并创建一个 Python 3.8 的开发环境。随后，安装 FFmpeg、libsndfile 以及 requirements.txt 文件中列出的所有依赖包。
权重下载：从 Hugging Face 或 GitHub Release 页面下载 AudioX-Turbo 4 步学生模型、VAE 以及 Synchformer 视频编码器的预训练权重。
启动推理：执行 python run_gradio.py 命令即可启动本地 Web 交互界面，或者直接调用 Python API 加载模型与分词器进行程序化操作。
参数设定：根据具体的任务需求，设置 video_path、text_prompt、audio_path 等输入参数。AudioX-Turbo 支持文本、视频、音频的任意组合输入。
音频生成：执行前向推理，仅需 4 步采样即可生成高质量音频。在 RTX 4090 上，生成 10 秒音频仅需约 0.24 秒，效率惊人。

AudioX-Turbo 的核心竞争力：

瞬时推理速度：4 步采样即可媲美教师模型 100 步的音质，有效采样数（NFE）减少约 25 倍，实现接近实时的音频生成。
统一的多模态处理：单一模型即可支持文本、视频、音频的任意组合输入，无需针对不同任务单独训练专用模型。
精准的指令跟随能力：基于 920 万带时间戳、数量、乐器标注的结构化数据，模型能够精确理解“先蝉鸣后吉他”等复杂时序指令。
卓越的蒸馏效果：基于 Flow Matching 的分布匹配蒸馏（DMD）结合扩散判别器，使得学生模型在部分性能指标上甚至超越了教师模型。

AudioX-Turbo 的项目链接：

GitHub 仓库：https://github.com/NoizAI/AudioX-Turbo
HuggingFace 模型库：https://huggingface.co/HKUSTAudio/AudioX-Turbo
arXiv 技术论文：https://arxiv.org/pdf/2606.12555

AudioX-Turbo 与同类竞品之比较：

维度	AudioX-Turbo	MMAudio
开发团队	Noiz AI × 香港科技大学 × 清华大学	Sony AI 相关团队
模型参数	2.7B（MMDiT）	157M（多模态 Transformer）
基础架构	多模态扩散 Transformer（Flow Matching）	多模态 Transformer + 流匹配（Flow Matching）
推理步数	4 步（蒸馏压缩）	默认 25 步（可配置 1–50 步）
生成速度	RTX 4090 上 10 秒音频仅需 0.24 秒	生成 8 秒音频约 1.23 秒
支持模态	文本/视频/音频任意组合（T2A、T2M、V2A、V2M、TV2A、TV2M、音频补全、图像零样本）	视频/文本/图像转音频（V2A、T2A、I2A）
统一模型	是（单一模型覆盖所有任务）	是（单一模型多模态联合训练）
时间戳控制	强（精确到秒级顺序、数量、乐器标注）	中等（依赖同步模块对齐音画）
指令数据集	自研 IF-caps-Pro（约 920 万样本，带时间戳/数量/乐器标注）	大规模音视频数据集（含噪声较多）