内含教程丨音色克隆模型 GPT-SoVITS，5 秒语音就能克隆出相似度 95% 的声音

AIGC动态2年前 (2024)发布 HyperAI超神经

AIGC动态欢迎阅读

原标题：内含教程丨音色克隆模型 GPT-SoVITS，5 秒语音就能克隆出相似度 95% 的声音
关键字：语音,数据,模型,音色,教程
文章来源：HyperAI超神经
内容字数：5361字

内容摘要：

编辑：xixi，李宝珠
RVC 创始人开源了一款音色克隆项目 GPT-SoVITS，仅需提供 5 秒语音样本，便可收获相似度达到 80%~95% 的克隆语音。「语音」是人类接触 AI 的「早教技术」，同时也是最早一批走出实验室，走进千家万户的 AI 技术。最初，人们针对智能语音的研究主要集中在语音识别上，即让机器听懂人类语言。
最早的基于电子计算机的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey，能够识别 10 个英文数字。1988 年，李开复实现了第一个基于隐马尔可夫模型的大词汇量语音识别系统 Sphinx。1997 年，世界上首个面向消费者的连续语音听写系统 Dragon NaturallySpeaking 正式发布。2009 年，微软在 Windows 7 操作系统中集成了语音功能。
2011 年，里程碑式产品 iPhone 4S 发布，Siri 的诞生将智能语音从识别带入了「交互」的新阶段。同年，谷歌宣布将在其内部测试开始 Google 搜索，并在未来的日子里将在 Google.com 上推出语音搜索。
从听到说的跃迁，也是人机交互繁荣发展的重要奠基石。如今，从智能

原文链接：内含教程丨音色克隆模型 GPT-SoVITS，5 秒语音就能克隆出相似度 95% 的声音