Ming-omni-tts

Ming-omni-tts – 蚂蚁集团开源的统一音频生成模型

Ming-omni-tts：蚂蚁集团打造的音频生成新纪元

在人工智能音频生成领域，来自蚂蚁集团的Ming-omni-tts模型正以其卓越的性能和创新的架构，引领着行业发展的新方向。这款开源的统一音频生成模型，凭借其自回归架构，实现了语音、音乐和音效的无缝融合，为用户带来了前所未有的听觉体验。更令人瞩目的是，Ming-omni-tts能够通过自然语言指令，实现对语速、音调、音量、情感以及方言的精细化调控。值得一提的是，其在粤语方言控制方面达到了惊人的93%准确率，情感控制准确率也高达46.7%，显著超越了同类竞品CosyVoice3。

Ming-omni-tts的核心优势在于其对音频生成方式的革新。它采用了创新的统一连续音频Tokenizer和Diffusion Transformer架构，能够以12.5Hz的帧率处理多模态音频数据。通过“Patch-by-Patch”压缩策略，模型将大型语言模型（LLM）的推理帧率有效降低至3.1Hz，在大幅缩短响应时间的同时，依然能保持高品质的音质。在性能方面，其16.8B参数版本在中国Seed-tts-eval中文测试集上展现出了仅0.83%的词错误率（WER），这一成绩优于SeedTTS和GLM-TTS等模型，彰显了其强大的文本到语音转换能力。

Ming-omni-tts的功能集可谓丰富多样，旨在满足用户在音频创作和应用中的各种需求。首先，它实现了业界首个在单通道内联合生成语音、环境音和音乐的自回归模型，为用户构建“身临其境”的听觉世界。其次，其对语音的精细化控制能力尤为突出，用户仅需简单的自然语言指令，即可精准调整语速、音调、音量、情感和方言，其中粤语方言控制的93%准确率和46.7%的情感控制准确率，都证明了其强大的控制力。再者，Ming-omni-tts内置了超过100种优质音色，并支持零样本声音设计，用户可以根据自然语言描述，创造出独一无二的声音。为了提升用户体验，模型还采用了“Patch-by-Patch”压缩机制，将LLM推理帧率降低到3.1Hz，显著减少了延迟。此外，对于专业内容的朗读，Ming-omni-tts也表现出色，能够准确解析和朗读复杂的数学表达式、化学方程式等专业格式，内部测试集CER仅为1.97%。在多语言支持方面，模型能够流畅地进行中文、英文等多种语言的语音合成，并支持跨语言音色迁移。最后，其零样本TTS功能，只需3-10秒的参考音频，便能克隆任意音色，在Seed-tts-eval上WER低至0.83%，极大地提高了声音定制的便捷性。

Ming-omni-tts的技术原理是其强大功能的基石。其核心在于统一连续音频Tokenizer，这是一种基于VAE的连续Tokenizer，能够以12.5Hz的帧率将语音、音乐和通用音频整合到统一的潜空间，从而实现多模态音频的联合建模。在此基础上，模型采用了Diffusion Transformer (DiT) Head，利用扩散头架构进一步提升了音频生成质量，使得音质更加细腻自然。在生成策略上，Ming-omni-tts采用patch大小为4、回溯历史为32的生成策略，巧妙地平衡了局部声学细节和长期结构连贯性。其自回归生成架构是业界首创，能够在单通道中联合生成语音、音乐和音效。而“Patch-by-Patch”压缩机制，则通过压缩策略将LLM的推理帧率从原始频率大幅降低至3.1Hz，有效降低了计算延迟和推理成本。最后，通过指令微调对齐，模型实现了对语速、音调、音量、情感和方言的细粒度控制，能够精准解析自然语言指令。

Ming-omni-tts的开源项目地址包括其GitHub仓库：https://github.com/inclusionAI/Ming-omni-tts，以及Hugging Face模型库中的两个版本：https://modelscope.cn/models/inclusionAI/Ming-omni-tts-16.8B-A3B 和 https://huggingface.co/inclusionAI/Ming-omni-tts-0.5B。

Ming-omni-tts的广泛应用场景预示着其在未来音频内容创作领域的巨大潜力。在有声书与播客制作方面，其长文本语音合成能力，以及在Podcast TTS任务上仅1.84%的CER，使其成为有声读物、新闻播报和播客生成的不二之选。对于多语言内容创作，模型支持中文、英文等多语言的语音合成与跨语言音色迁移，能够满足全球化内容生产的需求。在游戏音效设计领域，其联合生成语音、环境音和音乐的能力，能够为游戏场景提供沉浸式的听觉体验。在教育培训领域，Ming-omni-tts能够准确朗读复杂的数学表达式和化学方程式，非常适合用于在线教育课件和学术讲解。对于智能客服与助手，内置的100+优质音色和零样本声音克隆功能，能够快速定制品牌专属的语音助手。最后，在广告与营销配音方面，通过情感控制和方言支持，模型能够生成富有感染力的广告配音和本地化营销内容。

阅读原文