Kokoro-TTS

AI工具2年前 (2025)发布 AI工具集

Kokoro-TTS – 轻量级文本转语音模型，支持多语言多语音风格生成

Kokoro-TTS 是由 hexgrad 开发的一款轻量级文本转语音（TTS）模型，参数高达 8200 万。它结合了 StyleTTS 2 和 ISTFTNet 的混合架构，采用纯解码器设计，避免使用扩散模型，从而有效降低了计算复杂度，同时实现了优秀的语音合成效果和实时处理能力。

Kokoro-TTS是什么

Kokoro-TTS 是 hexgrad 推出的轻量级文本转语音（TTS）模型，拥有 8200 万参数。该模型基于 StyleTTS 2 和 ISTFTNet 结合的架构，采用纯解码器设计，且不依赖于扩散模型，显著降低计算复杂度，确保出色的语音合成质量与实时处理能力。Kokoro-TTS 支持多种语音风格，包括独特的耳语风格，能够生成自然的语调和韵律，兼容多平台，且资源占用极少。训练数据均为有许可的非版权音频数据以及 IPA 音素标签，包括公共领域音频、Apache、MIT 等许可证下的音频，以及来自大型提供商的闭源 TTS 模型生成的合成音频。目前，Kokoro-TTS 支持美国英语和英国英语，提供 10 种不同的语音包，涵盖多样的性别和语音特征。

Kokoro-TTS

Kokoro-TTS的主要功能

自然流畅的语调与韵律：能够生成接近自然人声的流畅语调与韵律，避免传统 TTS 模型常见的生硬和机械感。
多样化的语音风格：支持多种语音风格，包括耳语等特殊风格，用户可根据具体应用场景和需求选择合适的语音风格，丰富语音表达的多样性。
语言覆盖：目前支持美国英语与英国英语，为广大英语用户提供便捷的文本转语音服务，满足不同地区用户对语音合成的需求。
丰富的语音包选择：提供 10 种不同的语音包，涵盖不同性别和语音特征，如 Adam、Michael（美式英语）、Bella、Sarah（英式英语）等，用户可根据个人喜好选择多样化的语音包，实现个性化语音合成。
实时语音处理：具备快速的实时处理能力，能迅速将文本转化为语音，延迟极低，适合在线直播、实时翻译等对实时性要求高的应用场景。
高效的架构设计：采用基于 StyleTTS 2 和 ISTFTNet 的混合架构，以及纯解码器设计，避免扩散模型，显著降低计算复杂度，提高合成速度，并可在资源有限的设备上高效运行。
无缝的 API 集成：提供简便的 API 集成，便于开发者将其嵌入各种应用程序中，支持桌面应用、Web 服务及移动平台的文本转语音功能。
本地化处理：支持本地处理，无需将数据上传至云端，用户完全控制数据，保障隐私和数据安全。

如何使用Kokoro-TTS

在线体验：访问 Hugging Face Spaces 的在线体验Demo，直接输入文本即可体验语音合成效果。
本地部署
- 安装依赖，确保系统满足硬件和软件要求，尤其是 NVIDIA GPU 和 CUDA 驱动，另外安装 Docker Desktop 和 Git。
- 构建模型并加载默认的语音包。
- 调用生成函数，返回 24kHz 音频和使用的音素。
- 显示 24kHz 音频并打印输出音素。