Mega-ASR

Mega-ASR – NTU、NUS、上海AI Lab开源的语音识别模型

Mega-ASR：一款突破性全场景鲁棒语音识别基座模型

在日益复杂的真实世界声学环境中，准确的语音识别能力至关重要。为此，南洋理工大学（NTU）、新加坡国立大学（NUS）以及上海人工智能实验室携手合作，共同发布了一款名为 Mega-ASR 的全场景鲁棒语音识别基座模型。该模型以 Qwen3-ASR 1.7B 为核心架构，旨在攻克噪音、远场、回声、遮挡、传输丢包等一系列严峻的声学挑战，并通过创新的可扩展复合数据构建和渐进式声学到语义优化框架，为语音识别带来了前所未有的鲁棒性。

Mega-ASR 的核心亮点在于其卓越的全场景鲁棒语音识别能力。它不仅覆盖了噪音、远场、遮挡、回声混响、录音染色、电子失真、传输丢包这七种基础声学效应，更进一步模拟了高达 54 种在物理上合理的复合声学场景。这意味着 Mega-ASR 能够以单一模型应对多种多样的真实世界挑战，极大地拓宽了语音识别的应用边界。

为了实现这一目标，Mega-ASR 采用了渐进式声学到语义优化（A2S-SFT）这一创新训练策略。该策略分为三个阶段：首先，模型专注于适应中等程度退化的语音，逐步提升声学模型在不同恶劣程度下的表现（WER 从远小于 30% 提升至 50%，再到 70%）；接着，在冻结声学模块的同时，激活大语言模型的强大语义恢复能力；最后，通过端到端的联合微调，有效解决了“声学感知”与“语义重建”两大耦合瓶颈。

此外，Mega-ASR 还引入了双粒度动态奖励优化（DG-WGPO）机制。针对语音识别错误模式在 WER 超过 30% 时从词级混淆转变为句级幻觉或丢句的现象，该机制设计了 Token 级精修奖励和句子级重构奖励。通过 WER 门控的动态融合，Mega-ASR 在极端条件下能够更有效地保持语义的完整性。

Mega-ASR 的一个显著特点是其环境感知即插即用路由功能。模型内置了一个轻量级的音频质量分类器（基于单层 Transformer），能够自动判断输入音频是“干净”还是“退化”状态。干净语音会直接通过原始的 Qwen3-ASR backbone 进行识别，而退化语音则会切换到 Mega-ASR 的鲁棒 LoRA 分支，实现零侵入式的性能增强。

为了支撑如此强大的鲁棒性，Mega-ASR 还开源了Voices-in-the-Wild-2M 数据集。该数据集包含 240 万条合成音频和 5,000 条评测音频（其中 1,500 条为真实录音），全面覆盖了 7 种原子场景和 54 种混合场景，并且其难度分布经过精心校准。

Mega-ASR 的技术原理深入且精巧。其 Voices-in-the-Wild-2M 数据构建采用了频谱级代码仿真，先模拟基础声学效应，再通过智能验证组合成复合场景，并利用统一的严重程度参数控制难度。A2S-SFT 的三阶段训练确保了模型能够循序渐进地适应复杂语音。DG-WGPO 的动态奖励机制则针对不同错误模式进行优化。环境感知路由模型则以极低的计算开销实现了高效的语音分流。

要使用 Mega-ASR，用户需要准备好运行环境并安装相关依赖。接着，需要同时加载原始 Qwen3-ASR 1.7B backbone 和 Mega-ASR 的鲁棒性 LoRA 权重，以及轻量级的环境感知路由模型。预处理音频并送入路由模型进行判断后，模型会根据判断结果自动选择合适的识别路径，最终输出高质量的文本转写结果。

Mega-ASR 的核心优势在于其在复合场景下领先的性能表现，相较于 Whisper-Large-v3 和 Gemini-3-Flash 等竞品，其 WER 有显著降低。更重要的是，Mega-ASR 在极端条件下展现出强大的语义恢复能力，能够精确地还原参考文本，避免空白输出或无关的幻觉内容。同时，通过环境感知路由，Mega-ASR 在干净语音领域的性能也得到了进一步优化，并且原有能力（如热词识别、流式推理）不受影响。此外，其训练过程稳定，并且模型、代码、数据集均完全开源，便于社区复现和进一步研究。

Mega-ASR 的项目地址包括项目主页、GitHub 仓库、Hugging Face 模型库以及 arXiv 技术论文，为研究者和开发者提供了丰富的资源。在同类竞品对比中，Mega-ASR 在开源性、复合场景覆盖度、极端条件下的 WER 以及语义恢复能力等方面均表现出色，尤其在即插即用增强方面具有独特优势。

Mega-ASR 的应用场景极为广泛，包括但不限于车载语音交互、远场会议/课堂转写、户外采访与直播字幕、智能家居语音控制，以及电话客服与 VoIP 通话分析等，能够有效提升各种复杂声学环境下的语音识别体验。

阅读原文