语音克隆达到人类水平，微软全新VALL-E 2模型让DeepFake堪比配音员

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：语音克隆达到人类水平，微软全新VALL-E 2模型让DeepFake堪比配音员
关键字：模型,语音,文本,代码,微软
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨
【新智元导读】继去年初的第一代VALL-E模型之后，微软最近又上新了VALL-E 2模型，标志着第一个在合成语音稳健性、相似度、自然程度等方面达到人类水平的文本到语音模型。最近，微软发布了零样本的文本到语音（TTS）模型VALLE-2，首次实现了与人类同等的水平，可以说是TTS领域里程碑式的进展。
论文地址：https://arxiv.org/pdf/2406.05370
随着近年来深度学习的快速进步，用录音室环境下的干净单人语音训练模型，已经可以达到人类同等水平的质量，但零样本TTS依旧是一个有挑战性的问题。
「零样本」意味着推理过程中，模型只能参照一段简短的陌生语音样本，用相同的声音说出文本内容，就像一个能即时模仿的口技大师。
听到这里，不知道你会不会突然警觉——有这种能力的模型就是Deepfake的最佳工具！
令人欣慰的是，MSRA考虑到了这一点，他们目前只将VALL-E系列作为研究项目，并没有纳入产品或扩大使用范围的计划。
虽然VALL-E 2有很强的零样本学习能力可以像配音员一样模仿声音，但相似度和自然度取决于语音prompt的长度和质量、背景噪音等因

原文链接：语音克隆达到人类水平，微软全新VALL-E 2模型让DeepFake堪比配音员