在线教程丨石矶娘娘秒变「川渝妹子」?Step-Audio-TTS实现语音克隆/音乐合成/语音合成三合一
解锁方言+音乐合成新玩法
原标题:在线教程丨石矶娘娘秒变「川渝妹子」?Step-Audio-TTS实现语音克隆/音乐合成/语音合成三合一
文章来源:HyperAI超神经
内容字数:4370字
Step-Audio-TTS-3B 模型:方言语音生成新突破
本文介绍了HyperAI超神经官网上线的Step-Audio-TTS-3B产品级方言语音生成模型教程,该模型由阶跃星辰与吉利汽车集团联合开源,能够实现语音合成、音乐合成和语音克隆三大功能,并在方言语音生成领域取得了显著突破。
1. 模型突破与功能亮点
以往,方言语音克隆模型因方言数据多样性和模型泛化能力要求高而表现欠佳。Step-Audio-TTS-3B模型基于LLM-Chat范式大规模合成数据集训练,能够精准捕捉不同方言的韵律和语气,例如四川话和粤语。该模型还首创性地实现了RAP和哼唱的语音生成,填补了音乐类语音合成的空白。
2. 教程内容与使用方法
HyperAI超神经官网提供了详细的教程,涵盖语音合成、音乐合成和语音克隆三个功能。用户可在OpenBayes平台上在线运行教程,需进行实名认证后才能访问API地址。教程步骤包括:登录HyperAI超神经官网,选择教程,克隆至个人容器,选择资源配置(推荐NVIDIA RTX A6000和PyTorch镜像),等待资源分配,最后跳转至Demo页面进行操作。
3. 功能详解
3.1 普通语音合成:支持多种语言(中文、英文、日语等)、方言(四川话、粤语等)、情感(高兴、生气、悲伤、撒娇)和语速设置。预设了Tingting和哪吒两种音色,分别由4秒和14秒的音频prompt文件生成。
3.2 音乐合成:支持RAP和哼唱两种模式,同样预设了Tingting和哪吒两种音色,并提供了相应的prompt文件示例。RAP音色由11秒和14秒的音频prompt文件生成,哼唱音色由12秒和14秒的音频prompt文件生成。
3.3 语音克隆:支持用户上传自定义.wav格式音频,生成个性化语音。用户可设置情感、语种/方言和语速。
4. 赠书活动
HyperAI超神经联合人民邮电出版社推出赠书活动,送出5本《人工智能简史》。参与方式:关注HyperAI超神经公众号,并在后台回复“人工智能简史”,即可参与抽奖。
5. 总结
Step-Audio-TTS-3B模型及其教程的上线,为用户提供了强大的方言语音生成工具,并拓展了语音合成的应用场景。其在音乐合成方面的创新,更是为音乐创作提供了新的可能性。
联系作者
文章来源:HyperAI超神经
作者微信:
作者简介:解构技术先进性与普适性,报道更前沿的 AIforScience 案例