耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘
关键字：模型,语音,字节跳动,报告,技术
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心发布
机器之心编辑部Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。它生成的语音几乎与真人完全一样，音瑕疵也能生成出来，尤其在学习模仿人类说话方面，相似性和自然度均有很好表现。举例来说，将一段语音提供给 Seed-TTS，它就能按文本生成全新语音，且带上原素材的声音特征。
原素材（Prompt）：Seed-TTS 生成的中文语音：突然，身边一阵笑声。我看着他们，意气风发地挺直了胸膛，甩了甩那稍显肉感的双臂，轻笑道：“我身上的肉，是为了掩饰我爆棚的魅力，否则，岂不吓坏了你们呢？”英文语音也可生成，且依然能“复刻”中文发音者的特点。
Seed-TTS 生成的英文语音：Suddenly, there was a burst of laughter beside me. I looked at them, stood up straight with high spirit, shook the slightly fleshy arms, and smiled lightly, saying, “The flesh on my body is to hide

原文链接：耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘