性能比肩 Transducer 和 CTC/AED。
原标题:ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA
文章来源:机器之心
内容字数:8281字
小米新一代Kaldi团队提出CR-CTC:显著提升CTC语音识别性能
本文总结了小米新一代Kaldi团队发表在ICLR 2025上的论文《CR-CTC: Consistency regularization on CTC for improved speech recognition》的主要内容。该论文提出了一种名为CR-CTC (Consistency-Regularized CTC) 的新方法,显著提升了基于连接时序分类 (CTC) 的自动语音识别 (ASR) 模型的性能,使其达到甚至超越了Transducer和CTC/AED等更复杂模型的水平。
1. CR-CTC方法概述
CR-CTC的核心思想是通过一致性正则化来约束来自同一输入音频的两个增强视图的CTC概率分布。具体来说,它先对输入的Mel-spectrogram应用SpecAugment进行数据增强,得到两个不同的增强视图;然后,将这两个视图分别输入到参数共享的编码器模型中,得到对应的两个CTC概率分布;最后,除了计算两个CTC损失函数外,还引入一致性正则化损失,最小化两个分布之间的双向KL散度。总损失函数为CTC损失和一致性正则化损失的加权和。
2. CR-CTC方法的解释
论文从三个角度解释了CR-CTC的有效性:1)自蒸馏(self-distillation):CR-CTC可以看作是对不同增强视图下模型的子模型进行自蒸馏,增强模型的泛化能力;2)掩码预测(masked prediction):CR-CTC鼓励模型利用未被掩码的区域信息预测被掩码区域的token分布,提升上下文表征能力;3)峰值抑制(peak suppression):CR-CTC使CTC分布更加平滑,降低模型对训练数据的过度依赖,提高泛化能力。
3. 实验结果
实验结果表明,CR-CTC在LibriSpeech、Aishell-1和GigaSpeech等多个主流ASR数据集上取得了新的SOTA结果,且无需依赖外部训练数据和语言模型。与标准CTC相比,CR-CTC的性能有显著提升,与CTC/AED和Transducer模型的性能相当甚至更好。此外,将CR-CTC与CTC/AED和Transducer模型联合训练,可以进一步提升其性能。
4. 与其他方法的比较
论文还将CR-CTC与其他提升CTC性能的方法进行了比较,例如添加辅助头(AED head)或Transducer head进行联合训练。结果显示,CR-CTC的性能显著优于这些方法,并且参数量更少。
5. 结论
CR-CTC是一种简单有效的提升CTC语音识别性能的方法,它在多个数据集上取得了SOTA结果,为基于CTC的ASR系统提供了一种新的改进思路。其简洁的实现和显著的性能提升使其具有重要的应用价值。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台