DiaMoE-TTS – 清华联合巨人网络开源的多方言TTS框架
DiaMoE-TTS:让全球方言在数字世界中“开口说话”的创新语音合成框架
由清华大学与巨人网络携手打造的DiaMoE-TTS,是一项突破性的多方言语音合成(TTS)框架。它巧妙地融合了国际音标(IPA)这一通用语言符号系统,并引入了能够感知方言特性的混合专家(Mixture-of-Experts,MoE)架构,辅以低资源高效微调(PEFT)策略。这一切旨在以极低的成本和门槛,实现丰富多样的方言语音合成,让那些在数字世界中鲜有声音的小众语言,也能清晰地表达。
DiaMoE-TTS的魅力不止于此。它不仅支持粤语、闽南话、吴语等多种汉语方言,更能触及小语种,甚至京剧韵白等特殊语境,让“沉默”的语言重新焕发生机。更令人称道的是,即使在仅有数小时语料的极端低资源环境下,该框架也能通过PEFT策略和数据增强技术,快速适应新方言,生成自然流畅的语音。其全链路开源的特性,为研究者和开发者提供了极大的便利,方便复现、扩展和创新,有力地推动了方言保护和文化传承的进程。
DiaMoE-TTS的核心技术亮点在于其精巧的设计。
IPA统一输入:框架采用国际音标(IPA)作为标准输入,将不同方言的语音信号统一映射到同一音素空间。这一策略有效地消弭了方言间的发音差异,为模型的稳定训练和泛化能力的提升奠定了坚实基础。
方言感知MoE架构:通过引入多个“专家”网络,每个专家专注于学习特定方言的独有发音特征,有效避免了单一模型在处理多种方言时出现的“风格平均化”问题。当输入一段IPA时,系统能够智能地选择最适合的专家网络进行合成,并通过方言分类辅助损失,进一步增强了专家网络的区分能力。
低资源适配(PEFT):在text embedding层和注意力层中集成了Conditioning Adapter和LoRA技术,仅需微调少量参数,即可实现新方言的快速适配,而无需触动庞大的主干网络和MoE模块。同时,结合音高和语速扰动等数据增强手段,显著提升了模型在低资源条件下的合成表现。
多阶段训练策略:基于F5-TTS的成熟模型,框架首先利用IPA音素转换数据进行预热训练,实现输入形式的平滑过渡。接着,通过联合训练多个开源方言数据,激活MoE结构,学习共享特征并区分不同方言的发音模式。动态门控机制和方言分类辅助损失的引入,进一步优化了MoE的分流效果,精准捕捉每种方言的独特韵味。对于语料稀缺的新方言,则运用PEFT策略结合数据增强,实现高效迁移,同时确保原有知识不被遗忘。
DiaMoE-TTS的开源项目地址如下,欢迎各界人士一同探索和贡献:
GitHub仓库:https://github.com/GiantAILab/DiaMoE-TTS
HuggingFace模型库:https://huggingface.co/RICHARD12369/DiaMoE_TTS
arXiv技术论文:https://www.arxiv.org/pdf/2509.22727
DiaMoE-TTS的应用前景广阔,必将在多个领域发挥重要作用:
教育领域:为方言及小语种教学提供生动形象的语音工具,助力学习者掌握地道的发音。
文化保护:成为方言与小语种传承的有力助手,记录并重现濒危语言的风采,守护文化多样性。
虚拟人与数字内容:为虚拟角色、数字助手赋予多样的方言语音,丰富其表现力,提升用户交互体验。
数字文旅:为旅游景点打造多语种、多方言的语音导览,增强游客的文化认同感和亲切感。
跨境交流:打破语言隔阂,促进不同文化背景人群间的理解与沟通。