Miso One
Miso One 是一款逼真的 AI 文本转语音生成器,提供了一个仅支持英语、可本地使用的开放权重情感化 TTS 模型。
标签:AI音频工具 文本转语音 音频工具AI音频工具 emotive voice model local text to speech Miso One Miso TTS 8B MisoLabs MisoTTS open weights TTS Sesame CSM voice cloning 低延迟 声音克隆 开源语音模型 文本转语音Miso One官网
Miso One 是一款逼真的 AI 文本转语音生成器,提供了一个仅支持英语、可本地使用的开放权重情感化 TTS 模型。

Miso One 是一款由 Miso Labs 发布的开源英语文本转语音(TTS)模型,其核心在于 Miso TTS 8B,拥有 80 亿参数的开源权重,并以其极低的 110 毫秒延迟以及生成富有情感的对话式英语语音为亮点。该模型特别适合语音代理研究者、本地 TTS 实验者、英语语音质量评估者,以及需要声音克隆与语音延续功能的开发者。
Miso One 是什么?
Miso One 是 Miso Labs 围绕其 Miso TTS 8B 模型推出的产品名称,本质上是一个开源的英语文本转语音系统。该模型采用了 Sesame 风格的会话语音建模(CSM),并利用 Mimi 音频编码技术,能够生成富有表现力、情感丰富且节奏自然的对话式语音。它还支持通过提示音频进行语音延续,因此在声音克隆与语音代理研究领域具有显著的应用价值。目前,Miso One 的模型权重与推理代码已在 Hugging Face 与 GitHub 上公开,开发者可以自行下载并在本地 CUDA 环境中运行。需要强调的是,Miso One 并非轻量级的浏览器语音工具,其 8B 参数规模意味着它需要真实的 GPU 资源支持。
Miso One 的功能特点:
- 开源 8B 参数模型: Miso TTS 8B 的权重与推理代码完全公开,开发者可以下载、审查并且在本地部署,提供了极大的灵活性。
- 极低延迟: 官方公布的 110 毫秒延迟数据,是专为语音代理的实时交互场景而设计的,能够满足对响应速度有较高要求的应用。
- 专注于英语情感化语音: 当前版本主要侧重于英语的韵律、情感以及对话式表达,而非提供多语言支持。
- 音频上下文支持: 该模型能够根据输入的提示音频进行语音延续,从而实现一次性的声音克隆以及风格引导,为个性化语音生成提供了可能。
- 安全与水印机制: 官方提供了详细的安全说明,并且指导用户如何使用水印以及语音同意要求,旨在确保生成内容的负责任使用。
Miso One 的下载途径:
Miso TTS 8B 的模型权重与推理代码已在 Hugging Face 与 GitHub 上公开,开发者可以前往这两个平台搜索并下载相关资源。请确保在下载前已阅读并理解相关的许可协议。
运行 Miso One 的注意事项:
在本地运行 Miso One(英语-only emotive TTS model)之前,有几点至关重要需要了解。首先,该模型需要强大的硬件支持,特别是具备足够显存的 GPU,以应对 80 亿参数的计算需求。其次,官方明确表示当前版本仅支持英语,不兼容其他语言。此外,对于声音克隆与语音延续功能,务必确保您拥有合法授权的音频样本,并且在公开部署前,仔细测试模型的边缘情况,以避免潜在的法律或伦理风险。最后,官方提供了安全说明与水印指导,建议开发者仔细阅读并遵循,以负责任地使用该模型。
Miso One官方网站入口网址:
Miso One官网:https://miso-one.com/
OpenI小编发现Miso One网站非常受用户欢迎,请访问Miso One官网网址入口试用。
数据评估
本站OpenI提供的Miso One都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由OpenI实际控制,在2026年 6月 16日 上午8:35收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,OpenI不承担任何责任。


