AI说书媲美真人!豆包语音大模型升级长上下文理解

AIGC动态1个月前发布 量子位
280 0 0

打破传统语音合成链路,端到端生成

AI说书媲美真人!豆包语音大模型升级长上下文理解

原标题:AI说书媲美真人!豆包语音大模型升级长上下文理解
文章来源:量子位
内容字数:2445字

豆包语音模型:AI 合成有声书,媲美真人主播

本文总结了量子位公众号文章中关于豆包语音模型在AI有声书合成方面的技术突破。该模型在原有Seed-TTS框架的基础上,通过一系列改进,实现了高表现力、高自然度、高语义理解的小说演播效果,其合成语音效果已达到一流真人主播的90%以上。

1. 挑战与突破:超越传统TTS

市面上许多语音模型已能生成自然的声音,但在音质、韵律、情感以及多角色演绎方面仍有提升空间。尤其在小说演播领域,要达到一流主播的细腻程度,需要精准表达角感、区分旁白和角色、以及确保不同角色的区分度。传统TTS需要人工标注对话、旁白、情感和角色等信息,而豆包语音模型则实现了端到端合成,无需额外标签,显著提高了效率。

2. Seed-TTS框架的改进与创新

豆包语音模型基于Seed-TTS框架进行改进。Seed-TTS本身包含四个主要模块:Speech Tokenizer、Autoregressive Transformer、Diffusion Model和Acoustic Vocoder。豆包团队的改进主要体现在以下几个方面:

  1. 数据处理:对小说音频进行章节级别处理,保证了长文本语音的一致性和连贯性。
  2. 特征融合:融合TTS前端提取的音素、音调、韵律信息和原始文本,提升发音和韵律的同时,保留小说语义。
  3. 结构调整:将Speech Tokenizer改为Speaker Embedding,摆脱了参考音频对语音风格的限制,使同一个发音人能够在不同角色上进行更贴合人设的演绎。
  4. 上下文理解:在目标合成文本之外,额外加入上下文信息,使模型能够感知更大范围的语义信息,从而更精准地表达旁白和角色。

这些改进最终使模型在CMOS评分中达到了与真人主播90%以上的相似度。

3. 技术落地与未来展望

豆包语音大模型团队以王明军、李满超两位演播圈大咖的声音为基础,利用该技术合成了上千部有声书,已上线番茄小说平台,涵盖历史、悬疑、灵异、都市、脑洞、科幻等多种题材。未来,该团队将继续探索前沿科技与业务场景的结合,致力于提供更极致的听书体验。

4. 总结

豆包语音模型通过对Seed-TTS框架的改进和创新,在AI有声书合成领域取得了显著进展,其技术突破不仅提高了合成语音的质量和自然度,也简化了生产流程。这项技术不仅为听书用户带来了更好的体验,也为有声书产业的发展带来了新的可能性。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...