Fugatto：英伟达推出性多功能AI音频生成模型，支持高质量音频合成与实时语音转换

AI工具2年前 (2024)发布 AI工具集

Fugatto是一款由英伟达（NVIDIA）推出的先进音频合成与转换模型，全称为”Foundational Generative Audio Transformer Opus 1″。该模型具备根据文本提示生成音频和视频的能力，并能接收和修改现有音频文件，展现出在音频编辑和制作领域的巨大潜力。Fugatto能够将钢琴旋律转化为人声演唱，或改变录音中的口音和情感表达，极大丰富了音频创作的可能性。

Fugatto是什么

Fugatto是英伟达（NVIDIA）推出的一款音频合成和转换模型，其全名为“Foundational Generative Audio Transformer Opus 1”。该模型不仅可以根据文本提示生成音效和音乐，亦能接受并修改现有的音频文件。Fugatto的设计通过增强型Transformer模型架构实现，采用了自适应层归一化等特定技术，支持复杂的组合指令，在音频编辑和制作领域具有极高的实用价值。

Fugatto：英伟达推出革命性多功能AI音频生成模型，支持高质量音频合成与实时语音转换

Fugatto的主要功能

音频生成与转换：根据文本描述，Fugatto可以生成多种音效和音乐，例如将钢琴演奏转化为人声演唱，或是改变录音的口音和情感。
多任务学习：该模型支持多种音频生成与转换任务，包括音乐创作、声音效果设计和语音合成等。
精细的艺术控制：通过引入ComposableART技术，用户可以组合多个指令，精准控制声音属性，调整音乐的节奏和音色，或改变语音的情感与口音。
动态音频生成：Fugatto能够生成随时间变化的声音景观，用户可以操控声音的变化轨迹，使音频内容更加丰富生动。
多语言和口音支持：该模型具备强大的多语言和口音能力，能够生成多种语言的语音内容，支持多种口音和方言，增强音频创作的真实性。
音景创作：Fugatto能够为电影和音频制作创建身临其境的音景，模拟自然现象的声音，如雷雨声与鸟鸣声的结合，为用户提供丰富的听觉体验。
语音样本生成：模型可以生成新的语音样本，改变交付的语气和风格，为每次播放带来独特的感觉。

Fugatto的技术原理

深度神经网络：Fugatto基于深度神经网络，经过优化后能够理解文本，将描述转化为声音，并根据用户的特定需求调整输出。
大型语言模型 (LLM)：通过运用大型语言模型，Fugatto增强了指令生成的能力，更好地理解音频与文本提示之间的关系。
数据生成方法：Fugatto采用创新的数据生成方法，突破了传统的监督学习，专门生成各种音频和转换任务的数据集。
可组合音频表示转换 (ComposableART)：该技术使Fugatto在推理过程中能够组合训练期间只能单独使用的指令。
时间插值：Fugatto能够生成随时间变化的声音，NVIDIA称之为时间插值，能够模拟暴雨穿越区域的声音，雷声逐渐增强再慢慢消失。
生成新奇声音：与大多数只能重现训练数据的模型不同，Fugatto支持用户创造以前未曾见过的音景。
Transformer模型的特定修改：Fugatto的架构基于经过特定修改（如自适应层归一化）的增强型Transformer模型，更好地支持不同输入之间的一致性及作曲指令。