语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

AIGC动态5个月前发布 新智元
6 0 0

语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

AIGC动态欢迎阅读

原标题:语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
关键字:模型,语音,文本,代码,微软
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:乔杨
【新智元导读】继去年初的第一代VALL-E模型之后,微软最近又上新了VALL-E 2模型,标志着第一个在合成语音稳健性、相似度、自然程度等方面达到人类水平的文本到语音模型。最近,微软发布了零样本的文本到语音(TTS)模型VALLE-2,首次实现了与人类同等的水平,可以说是TTS领域里程碑式的进展。
论文地址:https://arxiv.org/pdf/2406.05370
随着近年来深度学习的快速进步,用录音室环境下的干净单人语音训练模型,已经可以达到人类同等水平的质量,但零样本TTS依旧是一个有挑战性的问题。
「零样本」意味着推理过程中,模型只能参照一段简短的陌生语音样本,用相同的声音说出文本内容,就像一个能即时模仿的口技大师。
听到这里,不知道你会不会突然警觉——有这种能力的模型就是Deepfake的最佳工具!
令人欣慰的是,MSRA考虑到了这一点,他们目前只将VALL-E系列作为研究项目,并没有纳入产品或扩大使用范围的计划。
虽然VALL-E 2有很强的零样本学习能力可以像配音员一样模仿声音,但相似度和自然度取决于语音prompt的长度和质量、背景噪音等因


原文链接:语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...