Stability AI开源47秒音频生成模型，虫鸣鸟叫、摇滚、鼓点都能生成

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：Stability AI开源47秒音频生成模型，虫鸣鸟叫、摇滚、鼓点都能生成
关键字：模型,数据,音乐,音频,样本
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：蛋酱、小舟音频生成领域又有好消息：刚刚，Stability AI 宣布推出开放模型 Stable Audio Open，该模型能够生成高质量的音频数据。项目地址：https://huggingface.co/stabilityai/stable-audio-open-1.0
与 Stability AI 的商业 Stable Audio 产品（可生成长达三分钟的更长、连贯的音乐曲目）不同，Stable Audio Open 可以通过简单的文本提示生成长达 47 秒的高质量音频数据。
经过专业训练后，这个模型已经非常适合创建鼓点、乐器 riffs、环境音、拟声录音和其他用于音乐制作和声音设计的音频样本。虽然它可以生成简短的音乐片段，但它并未针对完整的歌曲、旋律或人声进行优化。
Stable Audio Open 的主要优势在于，用户可以根据自己的自定义音频数据对模型进行微调。
比如，下方是鼓手根据自己的鼓声录音样本进行微调生成的新节拍：生成森林中鸟儿唱歌的音频：再生成一段「动次打次」的摇滚乐：训练细节与数据集
Stable Audio Open 是基于 Transfo

原文链接：Stability AI开源47秒音频生成模型，虫鸣鸟叫、摇滚、鼓点都能生成