AI说书媲美真人！豆包语音大模型升级长上下文理解

AIGC动态1年前 (2025)发布量子位

打破传统语音合成链路，端到端生成

原标题：AI说书媲美真人！豆包语音大模型升级长上下文理解
文章来源：量子位
内容字数：2445字

豆包语音模型：AI 合成有声书，媲美真人主播

本文总结了量子位公众号文章中关于豆包语音模型在AI有声书合成方面的技术突破。该模型在原有Seed-TTS框架的基础上，通过一系列改进，实现了高表现力、高自然度、高语义理解的小说演播效果，其合成语音效果已达到一流真人主播的90%以上。

1. 挑战与突破：超越传统TTS

市面上许多语音模型已能生成自然的声音，但在音质、韵律、情感以及多角色演绎方面仍有提升空间。尤其在小说演播领域，要达到一流主播的细腻程度，需要精准表达角感、区分旁白和角色、以及确保不同角色的区分度。传统TTS需要人工标注对话、旁白、情感和角色等信息，而豆包语音模型则实现了端到端合成，无需额外标签，显著提高了效率。

2. Seed-TTS框架的改进与创新

豆包语音模型基于Seed-TTS框架进行改进。Seed-TTS本身包含四个主要模块：Speech Tokenizer、Autoregressive Transformer、Diffusion Model和Acoustic Vocoder。豆包团队的改进主要体现在以下几个方面：

数据处理：对小说音频进行章节级别处理，保证了长文本语音的一致性和连贯性。
特征融合：融合TTS前端提取的音素、音调、韵律信息和原始文本，提升发音和韵律的同时，保留小说语义。
结构调整：将Speech Tokenizer改为Speaker Embedding，摆脱了参考音频对语音风格的限制，使同一个发音人能够在不同角色上进行更贴合人设的演绎。
上下文理解：在目标合成文本之外，额外加入上下文信息，使模型能够感知更大范围的语义信息，从而更精准地表达旁白和角色。

这些改进最终使模型在CMOS评分中达到了与真人主播90%以上的相似度。

3. 技术落地与未来展望

豆包语音大模型团队以王明军、李满超两位演播圈大咖的声音为基础，利用该技术合成了上千部有声书，已上线番茄小说平台，涵盖历史、悬疑、灵异、都市、脑洞、科幻等多种题材。未来，该团队将继续探索前沿科技与业务场景的结合，致力于提供更极致的听书体验。

4. 总结

豆包语音模型通过对Seed-TTS框架的改进和创新，在AI有声书合成领域取得了显著进展，其技术突破不仅提高了合成语音的质量和自然度，也简化了生产流程。这项技术不仅为听书用户带来了更好的体验，也为有声书产业的发展带来了新的可能性。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # AI内容生成 # AI说书 # 语音合成 # 豆包语音大模型 # 长上下文理解

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI说书媲美真人！豆包语音大模型升级长上下文理解

打破传统语音合成链路，端到端生成

豆包语音模型：AI 合成有声书，媲美真人主播

1. 挑战与突破：超越传统TTS

2. Seed-TTS框架的改进与创新

3. 技术落地与未来展望

4. 总结

联系作者

实测Claude 3.7：3200行代码一口气输出，物理规律手拿把掐，弱智吧已失守

AI蛋白质设计前沿教程，AAAI'25三大机构携手4小时全面剖析

相关文章

暂无评论