Muyan-TTS

Muyan-TTS – 开源文本转语音模型，零样本语音合成

Muyan-TTS

Muyan-TTS 是一款专为播客环境打造的开源文本转语音（TTS）模型，经过超过10万小时的播客音频数据预训练，能够实现零样本语音合成，无需大量目标说话人的语音数据即可生成高质量的语音。该模型支持个性化语音定制及说话人适配，合成速度快，适合于实时应用场景。

Muyan-TTS是什么

Muyan-TTS 是一款为播客场景特别设计的开源文本转语音模型。该模型经过超过10万小时的播客音频数据预训练，具备零样本语音合成的能力，让用户无需依赖大量目标说话人的语音数据即可生成高质量的语音输出。Muyan-TTS 的合成速度极快，能够在0.33秒内生成1秒的音频，非常适合实时应用。此外，Muyan-TTS 能够自然流畅地合成长篇内容，如播客和有声书，支持本地部署及API使用，便于集成到各种应用中。

Muyan-TTS的主要功能

零样本语音合成：无须大量目标说话人数据，仅需少量参考语音和文本即可生成出色的语音。
说话人适配：通过少量目标说话人的语音数据进行微调，达到个性化语音定制效果。
快速生成：仅需0.33秒即可生成1秒音频，适合实时与批量生成长语音内容。
连贯长内容合成：支持自然流畅地合成长篇内容，如播客与有声书等。
离线部署友好：支持本地推理，确保数据隐私并降低延迟。

Muyan-TTS的技术原理

框架设计：基于 GPT-SoVITS 框架，使用预训练的 Llama-3.2-3B 作为语言模型，并结合 SoVITS 模型进行音频解码。语言模型负责将文本与音频 token 对齐，生成中间表示，然后 SoVITS 模型将其解码为音频波形。
数据处理：数据集包含超过10万小时的播客音频，经过多阶段处理，包括数据收集、清洗和格式化，确保高质量与多样性。采用自动语音识别（ASR）模型将音频转录为文本，并将音频嵌入量化为离散 token，形成平行语料库。
预训练与微调：语言模型在平行语料库上进行预训练，以学习文本与音频 token 之间的关系。同时，通过监督微调（SFT）进一步利用少量目标说话人的语音数据来优化模型，提高语音合成的自然度和相似度。
解码器优化：基于 VITS 基础模型的解码器，减少幻觉问题，提高语音生成的稳定性与自然度。解码器在高质量音频数据上进行微调，以进一步提升合成语音的保真度和表现力。
推理加速：高效的内存管理和并行推理技术，提高推理速度并降低延迟。支持 API 模式，自动启用加速功能，适合实时应用。