击败扩散模型，清华朱军团队基于薛定谔桥的新语音合成系统来了

AIGC动态3年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：击败扩散模型，清华朱军团队基于薛定谔桥的新语音合成系统来了
关键字：模型,方法,华为,知乎,噪声
文章来源：机器之心
内容字数：9252字

内容摘要：

机器之心专栏
机器之心编辑部近日，由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1]，凭借其「数据到数据」的生成范式，在样本质量和采样速度两方面，均击败了扩散模型的「噪声到数据」范式。论文链接：https://arxiv.org/abs/2312.03491
项目网站：https://bridge-tts.github.io/
代码实现：https://github.com/thu-ml/Bridge-TTS
问题背景
自 2021 年起，扩散模型（diffusion models）开始成为文本到语音合成（text-to-speech, TTS）领域的核心生成方法之一，如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后，又有众多研究工作有效提升了扩散模型的采样速度，如通过先验优化 [2,3,4]、模型蒸馏 [5,6]、残差预测 [7] 等方法。然而，如此项研究所示，由于扩散模型受限于「噪声到数据」的生成范式，其先验分布对生成目标提供的信息始终较为有限，对条件信息无法利用充分。本

原文链接：击败扩散模型，清华朱军团队基于薛定谔桥的新语音合成系统来了