打破传统语音合成链路,端到端生成
豆包语音模型:AI 合成有声书,媲美真人主播
本文总结了量子位公众号文章中关于豆包语音模型在AI有声书合成方面的技术突破。该模型在原有Seed-TTS框架的基础上,通过一系列改进,实现了高表现力、高自然度、高语义理解的小说演播效果,其合成语音效果已达到一流真人主播的90%以上。
1. 挑战与突破:超越传统TTS
市面上许多语音模型已能生成自然的声音,但在音质、韵律、情感以及多角色演绎方面仍有提升空间。尤其在小说演播领域,要达到一流主播的细腻程度,需要精准表达角感、区分旁白和角色、以及确保不同角色的区分度。传统TTS需要人工标注对话、旁白、情感和角色等信息,而豆包语音模型则实现了端到端合成,无需额外标签,显著提高了效率。
2. Seed-TTS框架的改进与创新
豆包语音模型基于Seed-TTS框架进行改进。Seed-TTS本身包含四个主要模块:Speech Tokenizer、Autoregressive Transformer、Diffusion Model和Acoustic Vocoder。豆包团队的改进主要体现在以下几个方面:
- 数据处理:对小说音频进行章节级别处理,保证了长文本语音的一致性和连贯性。
- 特征融合:融合TTS前端提取的音素、音调、韵律信息和原始文本,提升发音和韵律的同时,保留小说语义。
- 结构调整:将Speech Tokenizer改为Speaker Embedding,摆脱了参考音频对语音风格的限制,使同一个发音人能够在不同角色上进行更贴合人设的演绎。
- 上下文理解:在目标合成文本之外,额外加入上下文信息,使模型能够感知更大范围的语义信息,从而更精准地表达旁白和角色。
这些改进最终使模型在CMOS评分中达到了与真人主播90%以上的相似度。
3. 技术落地与未来展望
豆包语音大模型团队以王明军、李满超两位演播圈大咖的声音为基础,利用该技术合成了上千部有声书,已上线番茄小说平台,涵盖历史、悬疑、灵异、都市、脑洞、科幻等多种题材。未来,该团队将继续探索前沿科技与业务场景的结合,致力于提供更极致的听书体验。
4. 总结
豆包语音模型通过对Seed-TTS框架的改进和创新,在AI有声书合成领域取得了显著进展,其技术突破不仅提高了合成语音的质量和自然度,也简化了生产流程。这项技术不仅为听书用户带来了更好的体验,也为有声书产业的发展带来了新的可能性。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...