MOSS-TTSD

AI工具22小时前更新 AI工具集
4 0 0

MOSS-TTSD – 清华实验室开源的口语对话语音生成模型

MOSS-TTSD 是一款由清华大学语音与语言实验室(Tencent AI Lab)倾力打造的开源口语对话语音生成模型。它能够将文本对话脚本转化为生动、流畅的对话语音,并支持中英文双语生成。该模型基于先进的语义-音学神经网络音频编解码器和大规模预训练语言模型,结合了超过百万小时的单人语音数据和数十万小时的对话语音数据进行训练,同时支持零样本语音克隆。

MOSS-TTSD:让文本对话“开口说话”

MOSS-TTSD 是一款革新性的文本转语音(TTS)模型,专为口语对话设计。它不仅能够将书面文本转化为自然流畅的语音,更赋予了语音对话应有的表现力和情感色彩。这款模型由清华大学语音与语言实验室(Tencent AI Lab)研发,是一款完全开源的解决方案,能够满足多种应用场景的需求。

核心功能一览

  • 生动对话语音生成:MOSS-TTSD 能够将文本对话脚本转化为高度自然的语音,准确捕捉对话中的节奏、语调和情感,让生成的语音更具吸引力。
  • 零样本音色克隆:无需额外的语音样本,即可实现说话人音色的精准克隆。这意味着,只需提供文本,MOSS-TTSD 就能模拟不同说话者的声音,完美还原对话场景。
  • 双语支持:支持中文和英文两种语言,满足全球用户的需求。
  • 超长语音生成:基于先进的低比特率编解码器,MOSS-TTSD 能够一次性生成长达数百秒的语音,避免了传统TTS模型中常见的拼接痕迹,使语音更加连贯自然。
  • 开源且商用友好:模型权重、推理代码和 API 接口均已开源,用户可以免费进行商业使用。

技术探秘

MOSS-TTSD 的强大功能源于其精巧的技术架构:

  • 基础架构:该模型基于 Qwen3-1.7B-base 模型进行微调,并采用离散化语音序列建模方法。
  • 语音离散化与编码器创新:核心在于 XY-Tokenizer,它通过双阶段多任务学习,实现了对语音信号的有效编码,在保证信息量的同时,降低了比特率。
  • 数据驱动的训练:MOSS-TTSD 采用了海量的语音数据进行训练,包括百万小时的单人语音和数十万小时的对话语音,从而保证了模型生成语音的质量和表现力。
  • 长语音生成能力:得益于超低比特率的 Codec,MOSS-TTSD 能够生成长达 960 秒的音频,避免了拼接带来的不自然感。

产品官网与资源

应用场景

MOSS-TTSD 具有广泛的应用前景,以下是几个典型的应用场景:

  • AI 播客制作:为 AI 播客生成自然流畅的对话语音,打造引人入胜的播客内容。
  • 影视配音:为影视作品中的对话配音,支持中英双语,并实现零样本音色克隆,大大提高配音效率和灵活性。
  • 长篇访谈:生成超长语音,避免拼接问题,适用于访谈、演讲等场景。
  • 新闻报道:生成自然的对话式语音,提升新闻报道的吸引力。
  • 电商直播:为数字人对话带货等电商直播场景提供对话语音支持,增加直播的互动性和吸引力。

常见问题解答

(待补充)

阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...