Stable Audio 3

Stable Audio 3 – Stability AI 开源的音频生成模型系列

Stable Audio 3，由Stability AI倾力打造，标志着开源音频生成领域迈入了新纪元。这款新一代模型系列，巧妙融合了流匹配潜空间扩散架构，为用户带来了前所未有的文本到音乐、音效生成体验，同时还具备强大的音频编辑与续写能力。Stable Audio 3提供多种规格，包括Small、Medium和Large，其中Small版本能够直接在MacBook Pro等设备上本地运行，生成长达2分钟的音频。而Medium和Large版本则能创作出超过6分钟的震撼高品质音频。

Stable Audio 3的独特之处

Stable Audio 3的诞生，不仅是技术的飞跃，更是对用户需求的深刻洞察。该系列模型均采用完全授权的数据进行训练，确保了商业使用的合规性与安全性。特别是Small和Medium版本的权重已开放，并支持LoRA微调，使得用户能够以极低的延迟，在不到2秒的时间内完成音频生成，极大地提升了创作效率。

Stable Audio 3的核心功能亮点

文字化为声音的魔术：只需输入简洁的英文提示词，即可生成器乐曲目或逼真的环境音效，并能精确控制音频长度至秒级。
灵活的音频时长定制：模型能够根据用户请求的时长动态调整潜空间序列的长度，告别了固定最大长度带来的资源浪费。
精细化的局部音频修复：通过单段或多段掩码技术，实现音频的“局部重绘”，在保留原有音频片段的基础上，精准替换特定区域的内容。
智能化的音频延展创作：利用因果掩码机制，模型能够对现有音频进行连贯的延伸，将简短的录音片段扩展成超过6分钟的完整作品。
LoRA风格的个性化定制：首次提供LoRA训练文档及Small、Medium版本的权重，赋能用户通过自有音频库进行高效的自定义风格适配。
全流程的本地化部署：3.0 Small版本支持在MacBook Pro等消费级设备上实现完全离线运行，为用户提供真正隐私化的创作环境。

Stable Audio 3的技术内核解析

语义与声学的融合编码器：基于SAME架构，通过4096倍下采样，将44.1kHz的立体声音频压缩至256维的潜空间，在保持高保真度的同时，有效编码了语义结构。
流匹配潜空间中的扩散生成：在紧凑的潜空间内，采用流匹配训练范式进行扩散生成，并结合小批量最优传输耦合，显著提升了训练的稳定性和效率。
对抗后训练加速推理：在预训练和ODE蒸馏预热之后，引入对抗后训练技术，将推理步数压缩至极低水平，使得在H200上生成长音频仅需不到2秒。
差分注意力Transformer的精妙运用：扩散Transformer集成了差分注意力、自适应层归一化条件注入以及记忆嵌入，极大地增强了对长序列音频的建模精度。
打破常规的可变长度推理：突破了传统扩散模型固定序列长度的限制，使得潜空间长度与实际生成时长成正比，有效降低了短音频生成的成本。

如何驾驭Stable Audio 3

获取模型权重：您可以访问Hugging Face上的Stability-AI/stable-audio-3仓库，下载3.0 Small、Small SFX或Medium版本的权重文件。
搭建运行环境：克隆stable-audio-tools代码仓库并安装必要的依赖库，确保PyTorch以及CUDA或Apple Metal后端配置正确。
模型与编码器的加载：在您的脚本中，实例化SAME自编码器和对应规模的扩散Transformer，并将预训练权重加载到显存中。
撰写富有创意的提示词：输入能够精准描述目标音频风格、乐器和情绪的英文提示词，并设定精确的输出时长（以秒为单位）。
执行推理生成之旅：调用模型的生成接口，模型将依据时长参数执行可变长度推理，并输出44.1kHz的立体声WAV文件。

Stable Audio 3的卓越之处

商业友好的完全授权：全系模型均基于授权和Creative Commons数据训练，其Community License允许用户拥有并商用生成的全部内容。
消费级硬件的原生支持：3.0 Small版本开放权重，可在MacBook Pro M4等设备上离线运行，是首款支持本地全曲创作的轻量级模型。
超乎想象的高质量长音频生成：Medium和Large版本能够生成超过6分钟的高品质音频，相较于前代Stable Audio Open的47秒上限，实现了质的飞跃。
极致高效的推理速度：通过对抗后训练优化，Large模型在H200 GPU上生成6分20秒的音频仅需不到2秒，在MacBook Pro上亦只需数秒。
零标注的灵活编辑体验：无需额外标注训练数据，即可通过随机与因果掩码实现单段、多段编辑及续写，无缝融入真实的创作流程。

Stable Audio 3的项目入口

官方网站：https://stability.ai/news-updates/meet-stable-audio-3-the-model-family-built-for-artistic-experimentation-with-open-weight-models
GitHub仓库：https://github.com/Stability-AI/stable-audio-3
HuggingFace模型库：https://huggingface.co/collections/stabilityai/stable-audio-3
arXiv技术论文：https://arxiv.org/pdf/2605.17991

对比维度	Stable Audio 3	Stable Audio Open	MusicGen
开发团队	Stability AI	Stability AI	Meta (FAIR)
模型架构	流匹配潜空间扩散	潜空间扩散	自回归 + EnCodec
最大生成时长	6分20秒	47秒	约2分钟
可变长度支持	原生秒级控制	不支持（固定长度）	有限支持
消费级本地运行	Small可在MacBook运行	需GPU	需GPU
开放权重范围	Small / Medium / Small SFX	Small	Small / Medium / Large
音频编辑能力	单段/多段/续写	不支持	不支持
推理速度	<2秒（H200，6分20秒）	较慢	中等