Ming-omni-tts

AI工具7小时前更新 AI工具集
0 0 0

Ming-omni-tts – 蚂蚁集团开源的统一音频生成模型

Ming-omni-tts:蚂蚁集团打造的音频生成新纪元

在人工智能音频生成领域,来自蚂蚁集团的Ming-omni-tts模型正以其卓越的性能和创新的架构,引领着行业发展的新方向。这款开源的统一音频生成模型,凭借其自回归架构,实现了语音、音乐和音效的无缝融合,为用户带来了前所未有的听觉体验。更令人瞩目的是,Ming-omni-tts能够通过自然语言指令,实现对语速、音调、音量、情感以及方言的精细化调控。值得一提的是,其在粤语方言控制方面达到了惊人的93%准确率,情感控制准确率也高达46.7%,显著超越了同类竞品CosyVoice3。

Ming-omni-tts的核心优势在于其对音频生成方式的革新。它采用了创新的统一连续音频Tokenizer和Diffusion Transformer架构,能够以12.5Hz的帧率处理多模态音频数据。通过“Patch-by-Patch”压缩策略,模型将大型语言模型(LLM)的推理帧率有效降低至3.1Hz,在大幅缩短响应时间的同时,依然能保持高品质的音质。在性能方面,其16.8B参数版本在中国Seed-tts-eval中文测试集上展现出了仅0.83%的词错误率(WER),这一成绩优于SeedTTS和GLM-TTS等模型,彰显了其强大的文本到语音转换能力。

Ming-omni-tts的功能集可谓丰富多样,旨在满足用户在音频创作和应用中的各种需求。首先,它实现了业界首个在单通道内联合生成语音、环境音和音乐的自回归模型,为用户构建“身临其境”的听觉世界。其次,其对语音的精细化控制能力尤为突出,用户仅需简单的自然语言指令,即可精准调整语速、音调、音量、情感和方言,其中粤语方言控制的93%准确率和46.7%的情感控制准确率,都证明了其强大的控制力。再者,Ming-omni-tts内置了超过100种优质音色,并支持零样本声音设计,用户可以根据自然语言描述,创造出独一无二的声音。为了提升用户体验,模型还采用了“Patch-by-Patch”压缩机制,将LLM推理帧率降低到3.1Hz,显著减少了延迟。此外,对于专业内容的朗读,Ming-omni-tts也表现出色,能够准确解析和朗读复杂的数学表达式、化学方程式等专业格式,内部测试集CER仅为1.97%。在多语言支持方面,模型能够流畅地进行中文、英文等多种语言的语音合成,并支持跨语言音色迁移。最后,其零样本TTS功能,只需3-10秒的参考音频,便能克隆任意音色,在Seed-tts-eval上WER低至0.83%,极大地提高了声音定制的便捷性。

Ming-omni-tts的技术原理是其强大功能的基石。其核心在于统一连续音频Tokenizer,这是一种基于VAE的连续Tokenizer,能够以12.5Hz的帧率将语音、音乐和通用音频整合到统一的潜空间,从而实现多模态音频的联合建模。在此基础上,模型采用了Diffusion Transformer (DiT) Head,利用扩散头架构进一步提升了音频生成质量,使得音质更加细腻自然。在生成策略上,Ming-omni-tts采用patch大小为4、回溯历史为32的生成策略,巧妙地平衡了局部声学细节和长期结构连贯性。其自回归生成架构是业界首创,能够在单通道中联合生成语音、音乐和音效。而“Patch-by-Patch”压缩机制,则通过压缩策略将LLM的推理帧率从原始频率大幅降低至3.1Hz,有效降低了计算延迟和推理成本。最后,通过指令微调对齐,模型实现了对语速、音调、音量、情感和方言的细粒度控制,能够精准解析自然语言指令。

Ming-omni-tts的开源项目地址包括其GitHub仓库:https://github.com/inclusionAI/Ming-omni-tts,以及Hugging Face模型库中的两个版本:https://modelscope.cn/models/inclusionAI/Ming-omni-tts-16.8B-A3B 和 https://huggingface.co/inclusionAI/Ming-omni-tts-0.5B。

Ming-omni-tts的广泛应用场景预示着其在未来音频内容创作领域的巨大潜力。在有声书与播客制作方面,其长文本语音合成能力,以及在Podcast TTS任务上仅1.84%的CER,使其成为有声读物、新闻播报和播客生成的不二之选。对于多语言内容创作,模型支持中文、英文等多语言的语音合成与跨语言音色迁移,能够满足全球化内容生产的需求。在游戏音效设计领域,其联合生成语音、环境音和音乐的能力,能够为游戏场景提供沉浸式的听觉体验。在教育培训领域,Ming-omni-tts能够准确朗读复杂的数学表达式和化学方程式,非常适合用于在线教育课件和学术讲解。对于智能客服与助手,内置的100+优质音色和零样本声音克隆功能,能够快速定制品牌专属的语音助手。最后,在广告与营销配音方面,通过情感控制和方言支持,模型能够生成富有感染力的广告配音和本地化营销内容。

阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...