内含教程丨音色克隆模型 GPT-SoVITS,5 秒语音就能克隆出相似度 95% 的声音
AIGC动态欢迎阅读
原标题:内含教程丨音色克隆模型 GPT-SoVITS,5 秒语音就能克隆出相似度 95% 的声音
关键字:语音,数据,模型,音色,教程
文章来源:HyperAI超神经
内容字数:5361字
内容摘要:
编辑:xixi,李宝珠
RVC 创始人开源了一款音色克隆项目 GPT-SoVITS,仅需提供 5 秒语音样本,便可收获相似度达到 80%~95% 的克隆语音。「语音」是人类接触 AI 的「早教技术」,同时也是最早一批走出实验室,走进千家万户的 AI 技术。最初,人们针对智能语音的研究主要集中在语音识别上,即让机器听懂人类语言。
最早的基于电子计算机的语音识别系统是由 AT&T 贝尔实验室开发的 Audrey,能够识别 10 个英文数字。1988 年,李开复实现了第一个基于隐马尔可夫模型的大词汇量语音识别系统 Sphinx。1997 年,世界上首个面向消费者的连续语音听写系统 Dragon NaturallySpeaking 正式发布。2009 年,微软在 Windows 7 操作系统中集成了语音功能。
2011 年,里程碑式产品 iPhone 4S 发布,Siri 的诞生将智能语音从识别带入了「交互」的新阶段。同年,谷歌宣布将在其内部测试开始 Google 搜索,并在未来的日子里将在 Google.com 上推出语音搜索。
从听到说的跃迁,也是人机交互繁荣发展的重要奠基石。如今,从智能
原文链接:内含教程丨音色克隆模型 GPT-SoVITS,5 秒语音就能克隆出相似度 95% 的声音
联系作者
文章来源:HyperAI超神经
作者微信:HyperAI
作者简介:解构技术先进性与普适性,解读更前沿的 AIForScience 案例
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...