AIGC动态欢迎阅读
原标题:微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
关键字:语音,模型,解读,属性,分解
文章来源:机器之心
内容字数:6114字
内容摘要:
机器之心专栏
机器之心编辑部SOTA 语音合成效果。
文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。多年来,微软持续关注语音领域的技术研究与产品研发,为了合成高质量自然的人类语音,NaturalSpeech 研究项目(https://aka.ms/speechresearch)应运而生。
为了实现这个宏伟远景,NaturalSpeech 项目将目标拆分成几个阶段:
1)第一阶段,在单个说话人上取得媲美人类的语音质量。为此,研究团队在 2022 年推出了 NaturalSpeech 1,在 LJSpeech 语音合成数据集上达到了人类录音水平的音质。
2)第二阶段,高效地实现像人类一样多样化的语音合成,包含不同的说话人、韵律、情感、风格等。为此,研究团队在 2023 年推出了 NaturalSpeech 2,利用扩散模型(Diffusion Model)实现了零样本(Zero-Shot)的语音合
原文链接:微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...