在线教程丨3款声音克隆模型真实测评，GPT-SoVITS精准拿捏「石矶娘娘」特点

内含一键部署链接

原标题：在线教程丨3款声音克隆模型真实测评，GPT-SoVITS精准拿捏「石矶娘娘」特点
文章来源：HyperAI超神经
内容字数：4272字

HyperAI超神经官网近日上线了三款主流音色克隆模型（GPT-SoVITS、Fish Speech v1.4 和 F5-E2 TTS）的一键部署教程，方便用户体验声音克隆技术。

文章以《哪吒2》票房突破百亿和《王者荣耀》芈月白晶晶皮肤配音为例，引出声音在影视和游戏中的重要性，以及声音克隆技术的发展和应用前景。声音克隆技术让普通人也能轻松体验配音的乐趣。

文章重点介绍了三款主流开源声音克隆模型：GPT-SoVITS、Fish Speech v1.4 和 F5-E2 TTS，分别从发布时间、发布机构、一键部署链接、模型特点和实际使用效果等方面进行详细介绍。

GPT-SoVITS
发布时间：2022年；发布机构：B站UP主花儿不哭；一键部署链接：https://hyper.ai/cn/tutorials/29812；特点：采用SoVITS+Transformer语音编码技术，高保真语音合成效果，即使只有5秒音频样本也能实现零样本文本到语音转换。
Fish Speech v1.4
发布时间：2024年；发布机构：Fish Audio团队；一键部署链接：https://hyper.ai/cn/tutorials/34680；特点：经过约15万小时数据训练，支持中文、日语和英语，语言处理能力接近人类水平，可调整音色、音高、语速。
F5-E2 TTS
发布时间：2024年；发布机构：上海交通大学、剑桥大学和吉利汽车研究院（宁波）有限公司；一键部署链接：https://hyper.ai/cn/tutorials/35468；特点：基于流匹配的非自回归生成方法，结合扩散变换器技术，3秒实现多音色混合克隆，支持单人语音生成、双人语音生成和多种语音类型生成。

文章还对这三款模型使用同一音频和提示词进行测试，并对结果进行了对比分析，指出F5-E2 TTS在音色克隆准确度上略逊于前两者，但在多功能性方面具有优势。

文章最后宣传了HyperAI超神经联合人民邮电出版社举办的赠书活动，赠送5本《人工智能简史》，并介绍了书籍内容和参与方式。

文章来源：HyperAI超神经
作者微信：
作者简介：解构技术先进性与普适性，报道更前沿的 AIforScience 案例

文章版权归作者所有，未经允许请勿转载。

暂无评论...