微软NaturalSpeech语音合成推出第三代，网友惊呼：超自然！实至名归

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：微软NaturalSpeech语音合成推出第三代，网友惊呼：超自然！实至名归
关键字：语音,模型,解读,属性,分解
文章来源：机器之心
内容字数：6114字

内容摘要：

机器之心专栏
机器之心编辑部SOTA 语音合成效果。
文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。在大模型（LLM）时代下，语音合成技术能够扩展大模型的语音交互能力，更是受到了广泛的关注。多年来，微软持续关注语音领域的技术研究与产品研发，为了合成高质量自然的人类语音，NaturalSpeech 研究项目（https://aka.ms/speechresearch）应运而生。
为了实现这个宏伟远景，NaturalSpeech 项目将目标拆分成几个阶段：
1）第一阶段，在单个说话人上取得媲美人类的语音质量。为此，研究团队在 2022 年推出了 NaturalSpeech 1，在 LJSpeech 语音合成数据集上达到了人类录音水平的音质。
2）第二阶段，高效地实现像人类一样多样化的语音合成，包含不同的说话人、韵律、情感、风格等。为此，研究团队在 2023 年推出了 NaturalSpeech 2，利用扩散模型（Diffusion Model）实现了零样本（Zero-Shot）的语音合

原文链接：微软NaturalSpeech语音合成推出第三代，网友惊呼：超自然！实至名归