Sketch2Sound

Sketch2Sound – Adobe 联合西北大学推出的AI音频生成技术

Sketch2Sound是什么

Sketch2Sound是一项由Adobe研究院与西北大学合作推出的先进AI音频生成技术。该技术能够根据声音模仿和文本提示生成高质量的音效。Sketch2Sound通过从声音模仿中提取响度、亮度和音高这三个关键控制信号，并将这些信号编码后应用于条件文本到声音的生成系统。它具有轻量化的特点，仅需经过少量的微调和一层线性适配，即可在多种文本到音频模型上高效实施。Sketch2Sound为声音设计师提供了结合文本提示的语义灵活性与声音模仿的精准性，极大地提升了声音创作的表现力和可控性。

Sketch2Sound

Sketch2Sound的主要功能

声音模仿与文本提示的结合： Sketch2Sound能够理解声音模仿（如口头仿声）和文本提示，从而生成与两者相符的高品质音效。
提取控制信号： 从输入的声音模仿中提取三个重要的控制信号：响度、亮度和音高概率。
生成任意声音： 利用提取的控制信号和文本提示，合成任意声音，既可以模仿特定的声音，也可以创造新的声音效果。
轻量级实现： 该技术能够在任何文本到音频的潜在扩散变换器上运行，仅需40,000步的微调和每个控制信号一个单独的线性层。

Sketch2Sound的技术原理

控制信号提取： 采用音频信号处理技术，从输入的声音模仿中提取响度、亮度和音高概率。
潜在扩散模型： 基于预训练的文本到声音潜在扩散变换器（DiT），该模型结合变分自编码器（VAE）和变换器解码器，将音频压缩为连续向量序列，并生成新的潜在向量序列以合成音频。
条件生成： 在潜在扩散模型中添加线性投影层，将控制信号直接整合到模型的噪声潜在变量中，实现模型的条件化。
微调与适配： 对预训练的文本到音频模型进行微调，使其能够处理时间变化的控制信号，实现自监督微调。
推理时控制： 在推理阶段，用户可以选择不同大小的中值滤波器，以调整控制信号的时间细节，从而在声音模仿的精确性与生成音频的质量之间取得平衡。
语义灵活性与表达性： 结合文本提示的语义灵活性以及声音模仿的表达性，为用户提供了一种自然、直观的声音创作方式。