OmniVoice

OmniVoice – 小米团队开源的多语言TTS模型

OmniVoice：颠覆性的超大规模多语种语音合成技术

在人工智能语音合成领域，小米 AI 实验室的 Kaldi 团队近日发布了一款名为 OmniVoice 的性模型。这款新一代的超大规模多语种 TTS（Text-to-Speech）系统，以前所未有的广度和深度，重新定义了语音合成的可能性。OmniVoice 不仅支持超过 600 种语言的零样本语音克隆，更以其创新的极简非自回归扩散架构，结合先进的全码本随机 Masking 与 LLM 初始化技术，实现了高达 40 倍于实时的推理速度，为语音内容创作和应用带来了质的飞跃。

OmniVoice 的核心魅力

OmniVoice 的出现，标志着语音合成技术进入了一个新纪元。它不再是单一功能的工具，而是集多项强大能力于一身的智能语音引擎。其核心亮点包括：

无与伦比的语言覆盖能力：OmniVoice 的训练基于海量的 58 万小时开源数据，使其能够驾驭超过 600 种语言，从主流大语种到资源匮乏的小语种，都能实现高质量的零样本语音合成。
极速精准的语音克隆：只需短短 3 到 10 秒的参考音频，OmniVoice 即可精准捕捉并复现任意说话人的音色特征。无论是通过内置的 Whisper 模型进行自动转录，还是手动提供文本，都能轻松完成语音克隆。
随心所欲的音色定制：告别了对参考音频的依赖，OmniVoice 允许用户通过自然语言描述来设计声音。无论是性别、年龄、音调，还是方言口音，甚至是耳语风格，都可以通过文本指令直接生成定制化的声音。
噪声干扰下的纯净之声：面对带有背景噪声或混响的音频，OmniVoice 具备出色的参考音频去噪能力，能够提取出纯净的说话人特征，确保合成的语音不受环境杂音的干扰。
情感丰富的副语言表达：通过插入特定的标签，如 [laughter] 或 [sigh]，OmniVoice 能够自然地加入笑声、叹气等副语言元素，为语音合成增添更多情感色彩和真实感。
精准的发音校正：对于多音字或专有名词的发音难题，OmniVoice 提供了解决方案。用户可以利用拼音（例如 ZHE2）或 CMU 音素（例如 [B EY1 S]）来纠正发音，确保语音的准确性。

便捷易用的操作指南

OmniVoice 的设计充分考虑了用户的易用性，提供了多种灵活的使用方式：

简便的安装部署：用户可以通过 pip 命令轻松安装，或者从 GitHub 克隆源码进行部署，整个过程快速便捷。
即时在线体验：无需复杂的代码编写，用户可以直接启动本地 Web 服务，或访问 HuggingFace 提供的在线 Demo，即刻体验 OmniVoice 的强大语音合成效果。
开发者友好的 API：对于开发者而言，可以通过 Python API 加载预训练模型，轻松实现零样本语音克隆功能，只需提供参考音频和对应的文本即可。
文本描述的音色设计：通过自然语言描述声音的各项属性，即可生成符合需求的特定音色，极大地简化了音色定制流程。
高效的命令行工具：系统支持命令行工具，无论是单条语音合成还是跨多 GPU 的批量推理任务，都能高效处理。
精细化的控制选项：在合成文本中插入特殊标签，即可实现副语言的添加；使用拼音或音素符号，则能精确控制多音字和专有名词的发音。

OmniVoice 的关键技术亮点与使用门槛

OmniVoice 的卓越性能源于其前沿的技术架构和强大的训练基础：

技术定位：作为一款基于扩散语言模型的非自回归 TTS 系统，OmniVoice 采用了极简的双向 Transformer 架构，直接将文本映射到多码本声学 token，摒弃了传统级联 pipeline 的繁琐，实现了 600+ 语种的零样本语音克隆与合成。
核心参数解读：该模型拥有 0.8B 的参数量，并基于 Qwen3-0.6B 进行初始化。经过 58.1 万小时、涵盖 646 个语种的海量数据训练，其推理速度达到了 RTF 0.025（即 40 倍实时速度）。在多项中英文及多语种基准测试中，OmniVoice 在说话人相似度和可懂度方面均达到了行业领先水平（SOTA）。
功能边界清晰：OmniVoice 支持 3-10 秒参考音频的零样本语音克隆，并且能够处理带噪声或混响的音频。其属性化音色设计涵盖性别、年龄、音调、方言、口音等，副语言控制和发音纠正也提供了强大的灵活性。
硬件要求：为了获得最佳性能，建议使用支持 CUDA 的 NVIDIA GPU（如 H800/H20），或支持 MPS 的 Apple Silicon 设备进行模型推理。
软件依赖：运行 OmniVoice 需要在 Python 虚拟环境中安装与 CUDA 版本匹配的 PyTorch，并通过 pip 或源码安装 omnivoice 包。

OmniVoice 的核心竞争力

OmniVoice 之所以能够脱颖而出，在于其多方面的突出优势：

架构创新，效率至上：其单阶段非自回归扩散语言模型架构，采用一个双向 Transformer 直接完成文本到声学 token 的映射，消除了传统 pipeline 中的误差累积和信息瓶颈，实现了简洁高效的双重突破。
无与伦比的语言覆盖广度：基于海量数据的训练，OmniVoice 成为目前语言覆盖范围最广的 TTS 模型，即使是低资源小语种也能保持极低的字错误率。
惊人的推理速度：全码本随机 Masking 策略和高效架构设计，使得推理速度达到 RTF 0.025，远超自回归模型，极大地提升了实时性。
卓越的音质与可懂度：得益于 LLM 初始化，OmniVoice 在关键指标上超越了现有非自回归模型和商业系统，保证了生成语音的高质量和高可懂度。
全面的可控性：从零样本克隆到属性化音色设计，再到副语言和发音的精细控制，OmniVoice 满足了各种复杂场景下的个性化需求。

OmniVoice 的项目资源

GitHub 仓库：https://github.com/k2-fsa/OmniVoice
HuggingFace 模型库：https://huggingface.co/k2-fsa/OmniVoice
arXiv 技术论文：https://arxiv.org/pdf/2604.00688
在线体验 Demo：https://huggingface.co/spaces/k2-fsa/OmniVoice

OmniVoice 与同类竞品之比较

维度	OmniVoice	ElevenLabs v2	MiniMax-Speech
语言覆盖	600+ 语种（含大量低资源语言）	~29 种主流语言	~24 种语言
架构类型	非自回归扩散模型（单阶段极简）	自回归/混合（黑盒架构）	自回归
参数量	0.8B	未公开	未公开
推理速度	RTF 0.025 (40×实时/本地)	较慢 (云端 API 依赖)	中等 (云端 API 依赖)
零样本克隆	支持 (3-10秒/600+语种)	支持 (即时/29语种)	支持
可控功能	音色设计/去噪/ 副语言/发音纠正	基础克隆 + 情绪控制	基础克隆

OmniVoice 的广阔应用前景

全球化内容本地化：创作者可以利用 OmniVoice 强大的多语种能力，将播客、有声读物、教学视频等内容快速翻译成不同语言，并通过语音克隆保持原有的说话人风格，实现真正意义上的全球化传播。
游戏与影视的配音新维度：游戏开发者和影视制作方能够通过参考音频克隆或属性化音色设计，为游戏角色或影视角色打造丰富多样的声音，提升作品的沉浸感。
智能客服与虚拟助手升级：企业可以部署 OmniVoice 构建支持多语言的智能客服系统，通过克隆品牌代言人的声音，或设计符合品牌形象的专属语音助手，提升用户体验和品牌一致性。
教育与语言学习的革新：教育机构可以开发稀有语言的学习资源，并利用 OmniVoice 的发音纠正功能，帮助学习者精准掌握中文多音字或英文专有名词的发音。

阅读原文