SoulX-Podcast – Soul推出的多说话人语音合成模型
SoulX-Podcast:革新长篇对话生成,赋能多语态播客创作
由Soul AI Lab倾力打造的SoulX-Podcast,是一款开创性的多说话人文本到语音(TTS)模型。它专为满足长篇播客对话的生成需求而设计,凭借其高达1.7B的模型参数,不仅支持普通话和英语,更涵盖了四川话、河南话、粤语等多种汉语方言。其独有的跨方言提示功能,允许用户通过普通话指令,轻松合成目标方言的语音,为内容创作者提供了前所未有的灵活性。
SoulX-Podcast核心亮点解析
- 多元角色演绎:该模型能够精准模拟多个说话人之间的对话场景,实现不同角色语音的自然切换,尤其适用于播客节目、有声读物等多角色内容的制作。
- 多语种方言覆盖:SoulX-Podcast支持广泛的语言和方言种类,包括普通话、英语以及多种中国地方方言(如蜀语、豫语、粤语等)。其创新的跨方言提示机制,让用户仅凭普通话输入,即可生成地道的方言语音。
- 情感细节捕捉:模型融入了对非语言信息的精妙控制,如笑声、叹息、清嗓等“副语言”元素。这极大地提升了合成语音的真实感与生动性,使其更贴近人类表达。
- 宏篇巨制无忧:SoulX-Podcast具备卓越的长篇对话生成能力,可连续输出超过90分钟的语音内容,且能始终保持音色的一致性和情感的连贯性,是制作长篇播客节目的理想选择。
- 即时语音克隆:即使在缺乏目标说话人语音样本的情况下,模型也能进行零样本语音克隆,生成高品质的个性化语音,为用户提供便捷的定制化服务。
SoulX-Podcast技术架构深度剖析
- 基石模型:SoulX-Podcast以强大的Qwen3-1.7B预训练语言模型为基础,并针对多说话人对话生成任务进行了精细化微调。
- 多角色建模:通过引入独特的说话人嵌入(Speaker Embedding)技术,模型能够精确识别并区分不同说话人的语音特征,从而在生成过程中实现说话人的流畅切换。
- 方言智能转化:模型采用方言引导提示(Dialect-Guided Prompting,DGP)策略,使其能根据普通话提示词,自动生成对应的目标方言语音,实现了多种方言的零样本生成。
- 情感表达赋能:用户可在文本输入中嵌入特定的副语言标记(例如
<|laughter|>、<|sigh|>),模型便能据此在生成的语音中加入相应的非语言信息,显著提升语音的自然度与感染力。 - 长时序稳定性:通过对注意力机制和解码器结构的深度优化,SoulX-Podcast确保在长时间对话生成中,音色和情感都能保持高度稳定,有效规避了音色漂移或情感断裂的问题。
- 数据驱动与训练:模型在海量的多说话人对话数据上进行训练,其数据处理流程涵盖了语音增强、音频分割、说话人日志记录、文本转录以及严格的质量筛选,确保模型能充分学习并复现丰富的对话特质。
探索SoulX-Podcast的多元应用场景
- 播客内容创作:凭借其生成长达90分钟连贯对话的能力,SoulX-Podcast是制作各类播客节目的理想工具,无论是科技评论、文化漫谈还是娱乐八卦,都能轻松应对。
- 有声读物制作:模型支持多角色对话生成,能让小说、故事等有声读物更具表现力,为听众带来身临其境的体验。
- 教育内容创新:通过生成多角色对话,模型能有效增强语言学习、历史故事讲解等教育内容的互动性和趣味性,提升学习效果。
- 娱乐互动体验:为游戏、动画及视频内容提供自然的多角色语音,极大地增强了作品的沉浸感和吸引力。
- 企业培训革新:模型可以生成模拟对话,帮助员工进行沟通技巧和客户服务等方面的培训,提升职业素养。
相关资源链接
- 官方网站:https://soul-ailab.github.io/soulx-podcast/
- GitHub代码库:https://github.com/Soul-AILab/SoulX-Podcast
- HuggingFace模型集:https://huggingface.co/collections/Soul-AILab/soulx-podcast
- 技术论文(arXiv):https://arxiv.org/pdf/2510.23541
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...

粤公网安备 44011502001135号