MiniMax 的海螺语音很难找到对手。
原标题:几十个测试后,发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的
文章来源:AI科技评论
内容字数:7812字
MiniMax海螺语音:AI语音生成领域的强劲竞争者
本文介绍了MiniMax公司推出的海螺语音,一款基于升级语音大模型T2A-01系列的AI语音生成工具。通过与其他语音生成产品(如ChatTTS、ElevenLabs)的对比,展现了海螺语音在语音质量、多语言支持和情绪控制方面的优势。
1. 海螺语音:稳定高质量的语音生成
海螺语音能够稳定地生成高质量语音,支持中文、粤语、英语等17种语言和上百种音色。在绕口令“施氏食狮史”的测试中,海螺语音的表现显著优于ChatTTS和ElevenLabs,展现了其强大的语音处理能力和对同声词的精准把握。 其语音自然流畅,接近真人发音,无需“抽卡”即可达到高水平的稳定输出。
2. 多语言能力与ElevenLabs比肩
海螺语音的多语言合成能力与行业领先者ElevenLabs不相上下。MiniMax团队采用严谨的评测方法,结果显示海螺语音在中文、粤语、英语等多个语种上的相似度和正确率均大幅领先。 文章中通过用九种语言朗读杨幂的广告语“你没事吧?”的例子,生动地展现了海螺语音的多语言能力和情绪表达能力。
3. 精准的情绪表达和音色控制
海螺语音的一大亮点在于其精准的情绪表达和音色控制能力。通过对海量高质量音频数据的训练,海螺语音能够识别并重现语音中细微的情感差别,并支持用户自定义情绪(开心、难过、生气等)和音色(语言、口音、性别、年龄等),甚至可以控制声音的细节,如低沉/明亮、力量感/柔和等。文章中用粤语朗读古诗和模拟老人情绪变化的例子,充分展示了海螺语音在情绪控制方面的优势。
4. MiniMax在AGI领域的长期投入
MiniMax在AI语音领域的技术积累深厚,其对语音大模型的开发投入早于许多大厂。 公司致力于发展多模态AI技术,并将语音模型视为AGI发展的重要路径。海螺语音的推出,是MiniMax在多模态领域长期投入和持续发力的结果,也体现了其在AI领域的创新能力和技术实力。
总而言之,MiniMax的海螺语音凭借其高质量的语音生成能力、强大的多语言支持、精准的情绪控制和丰富的音色选择,在AI语音生成领域展现出强大的竞争力,有望成为该领域的领军者。
联系作者
文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。