Mega-ASR

AI工具39分钟前更新 AI工具集
0 0 0

Mega-ASR – NTU、NUS、上海AI Lab开源的语音识别模型

Mega-ASR:一款突破性全场景鲁棒语音识别基座模型

在日益复杂的真实世界声学环境中,准确的语音识别能力至关重要。为此,南洋理工大学(NTU)、新加坡国立大学(NUS)以及上海人工智能实验室携手合作,共同发布了一款名为 Mega-ASR 的全场景鲁棒语音识别基座模型。该模型以 Qwen3-ASR 1.7B 为核心架构,旨在攻克噪音、远场、回声、遮挡、传输丢包等一系列严峻的声学挑战,并通过创新的可扩展复合数据构建和渐进式声学到语义优化框架,为语音识别带来了前所未有的鲁棒性。

Mega-ASR 的核心亮点在于其卓越的全场景鲁棒语音识别能力。它不仅覆盖了噪音、远场、遮挡、回声混响、录音染色、电子失真、传输丢包这七种基础声学效应,更进一步模拟了高达 54 种在物理上合理的复合声学场景。这意味着 Mega-ASR 能够以单一模型应对多种多样的真实世界挑战,极大地拓宽了语音识别的应用边界。

为了实现这一目标,Mega-ASR 采用了渐进式声学到语义优化(A2S-SFT)这一创新训练策略。该策略分为三个阶段:首先,模型专注于适应中等程度退化的语音,逐步提升声学模型在不同恶劣程度下的表现(WER 从远小于 30% 提升至 50%,再到 70%);接着,在冻结声学模块的同时,激活大语言模型的强大语义恢复能力;最后,通过端到端的联合微调,有效解决了“声学感知”与“语义重建”两大耦合瓶颈。

此外,Mega-ASR 还引入了双粒度动态奖励优化(DG-WGPO)机制。针对语音识别错误模式在 WER 超过 30% 时从词级混淆转变为句级幻觉或丢句的现象,该机制设计了 Token 级精修奖励和句子级重构奖励。通过 WER 门控的动态融合,Mega-ASR 在极端条件下能够更有效地保持语义的完整性。

Mega-ASR 的一个显著特点是其环境感知即插即用路由功能。模型内置了一个轻量级的音频质量分类器(基于单层 Transformer),能够自动判断输入音频是“干净”还是“退化”状态。干净语音会直接通过原始的 Qwen3-ASR backbone 进行识别,而退化语音则会切换到 Mega-ASR 的鲁棒 LoRA 分支,实现零侵入式的性能增强。

为了支撑如此强大的鲁棒性,Mega-ASR 还开源了Voices-in-the-Wild-2M 数据集。该数据集包含 240 万条合成音频和 5,000 条评测音频(其中 1,500 条为真实录音),全面覆盖了 7 种原子场景和 54 种混合场景,并且其难度分布经过精心校准。

Mega-ASR 的技术原理深入且精巧。其 Voices-in-the-Wild-2M 数据构建采用了频谱级代码仿真,先模拟基础声学效应,再通过智能验证组合成复合场景,并利用统一的严重程度参数控制难度。A2S-SFT 的三阶段训练确保了模型能够循序渐进地适应复杂语音。DG-WGPO 的动态奖励机制则针对不同错误模式进行优化。环境感知路由模型则以极低的计算开销实现了高效的语音分流。

使用 Mega-ASR,用户需要准备好运行环境并安装相关依赖。接着,需要同时加载原始 Qwen3-ASR 1.7B backbone 和 Mega-ASR 的鲁棒性 LoRA 权重,以及轻量级的环境感知路由模型。预处理音频并送入路由模型进行判断后,模型会根据判断结果自动选择合适的识别路径,最终输出高质量的文本转写结果。

Mega-ASR 的核心优势在于其在复合场景下领先的性能表现,相较于 Whisper-Large-v3 和 Gemini-3-Flash 等竞品,其 WER 有显著降低。更重要的是,Mega-ASR 在极端条件下展现出强大的语义恢复能力,能够精确地还原参考文本,避免空白输出或无关的幻觉内容。同时,通过环境感知路由,Mega-ASR 在干净语音领域的性能也得到了进一步优化,并且原有能力(如热词识别、流式推理)不受影响。此外,其训练过程稳定,并且模型、代码、数据集均完全开源,便于社区复现和进一步研究。

Mega-ASR 的项目地址包括项目主页、GitHub 仓库、Hugging Face 模型库以及 arXiv 技术论文,为研究者和开发者提供了丰富的资源。在同类竞品对比中,Mega-ASR 在开源性、复合场景覆盖度、极端条件下的 WER 以及语义恢复能力等方面均表现出色,尤其在即插即用增强方面具有独特优势。

Mega-ASR 的应用场景极为广泛,包括但不限于车载语音交互、远场会议/课堂转写、户外采访与直播字幕、智能家居语音控制,以及电话客服与 VoIP 通话分析等,能够有效提升各种复杂声学环境下的语音识别体验。

阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...