MOSS-TTSD

MOSS-TTSD – 清华实验室开源的口语对话语音生成模型

MOSS-TTSD 是一款由清华大学语音与语言实验室（Tencent AI Lab）倾力打造的开源口语对话语音生成模型。它能够将文本对话脚本转化为生动、流畅的对话语音，并支持中英文双语生成。该模型基于先进的语义-音学神经网络音频编解码器和大规模预训练语言模型，结合了超过百万小时的单人语音数据和数十万小时的对话语音数据进行训练，同时支持零样本语音克隆。

MOSS-TTSD：让文本对话“开口说话”

MOSS-TTSD 是一款革新性的文本转语音（TTS）模型，专为口语对话设计。它不仅能够将书面文本转化为自然流畅的语音，更赋予了语音对话应有的表现力和情感色彩。这款模型由清华大学语音与语言实验室（Tencent AI Lab）研发，是一款完全开源的解决方案，能够满足多种应用场景的需求。

核心功能一览

生动对话语音生成：MOSS-TTSD 能够将文本对话脚本转化为高度自然的语音，准确捕捉对话中的节奏、语调和情感，让生成的语音更具吸引力。
零样本音色克隆：无需额外的语音样本，即可实现说话人音色的精准克隆。这意味着，只需提供文本，MOSS-TTSD 就能模拟不同说话者的声音，完美还原对话场景。
双语支持：支持中文和英文两种语言，满足全球用户的需求。
超长语音生成：基于先进的低比特率编解码器，MOSS-TTSD 能够一次性生成长达数百秒的语音，避免了传统TTS模型中常见的拼接痕迹，使语音更加连贯自然。
开源且商用友好：模型权重、推理代码和 API 接口均已开源，用户可以免费进行商业使用。

技术探秘

MOSS-TTSD 的强大功能源于其精巧的技术架构：