仅听3秒，AI零样本克隆人声达到人类水平，情绪语调随意改

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：仅听3秒，AI零样本克隆人声达到人类水平，情绪语调随意改
关键字：语音,属性,模型,分解,韵律
文章来源：量子位
内容字数：6768字

内容摘要：

量子位 | 公众号 QbitAI零样本、仅听3秒提示音频，即可1:1复刻人声。还能给生声带入情绪，比如“悲伤”的情绪：“恶心”的情绪：这就是微软与中国科技大学、香港中文大学（深圳）和浙江大学等机构合作，推出的NaturalSpeech 3系统。
该系统采用了创新的属性分解扩散模型和属性分解语音神经编解码器FACodec，从“表示”和“建模”两个维度对语音数据进行深入研究。通过数据/模型的规模化方法，在多说话人数据集LibriSpeech上首次实现了零样本的人类水平语音合成。
指定特征实现个性化输出文本到语音合成（TTS）技术作为生成式人工智能的关键分支，在大型语言模型（LLM）的推动下近年来迎来了突飞猛进的发展。特别是随着语音合成技术的进步，它为大模型带来了声音交互的新维度，受到了业界的高度重视。在这一领域内，微软一直是技术研究与产品开发的积极参与者，旨在创造出高度自然的人类语音。为此，微软启动了NaturalSpeech研究项目(https://speechresearch.github.io/)。
该项目为实现其目标，制定了分阶段的实施路线图：
首先，项目聚焦于在单个说话人语音

原文链接：仅听3秒，AI零样本克隆人声达到人类水平，情绪语调随意改