Speech-02

AI工具1年前 (2025)更新 AI工具集

Speech-02 – MiniMax 推出的新一代文本转语音模型

Speech-02

Speech-02 是 MiniMax 最新推出的先进文本到语音（TTS）模型，利用回归 Transformer 架构实现零样本语音克隆。该模型仅需几秒钟的参考语音，即可生成与目标语音高度相似的语音输出。通过 Flow-VAE 架构的引入，Speech-02 在语音生成的信息表征能力上得到了显著增强，从而提升了合成语音的质量和相似度。

Speech-02是什么

Speech-02 是 MiniMax 全新发布的下一代文本到语音（TTS）模型。该模型基于回归 Transformer 架构，能够在仅需几秒参考音频的情况下，实现零样本语音克隆，生成与目标语音极为相似的音频。得益于 Flow-VAE 架构，Speech-02 的语音生成能力在信息表征上得到了进一步的提升，合成出的语音不仅清晰流畅，还具备高保真度。Speech-02 提供两种版本：Speech-02-HD 适用于高保真场景，如配音和有声读物，确保节奏一致且音质优良；而 Speech-02-Turbo 则优化了实时性能，兼顾超低延迟与卓越的音质，特别适合交互式应用。该模型现已上线 MiniMax Audio 平台及 MiniMax API 平台。

Speech-02的主要功能

零样本语音克隆：只需几秒的参考音频，即可生成高度相似的目标语音。
高品质语音合成：合成出自然流畅的语音，支持多种语言和方言。
多语言支持：支持 32 种语言，特别擅长中英、粤语等语种，能够实现跨语言切换。
个性化语音生成：用户可提供示范音频，模型通过学习后生成个性化的语音。
情感控制：支持多种情感表达（如快乐、悲伤等），可根据文字描述指导语音生成。

Speech-02的技术原理

自回归 Transformer 架构：基于自回归 Transformer 的设计，生成的语音在韵律、语调和自然度方面表现出色。自回归模型逐个生成语音特征，确保输出的语音更加自然和连贯。
零样本语音克隆：采用可学习的 speaker 编码器，该编码器专注于提取合成语音中最有价值的声音特征，仅需几秒的参考语音便能生成相似的目标语音。
Flow-VAE 架构：通过可逆映射变换潜在空间，准确捕捉数据中的复杂模式，增强语音生成过程中的信息表征能力，提高合成语音的整体质量和相似度。
T2V 框架：结合开放式自然语言描述与结构化标签信息，实现灵活且可控的音色生成，用户可基于文本描述指导模型生成特定音色和情感的语音。