模型和代码已经全部开源。
原标题:小红书语音识别新突破!开源FireRedASR,中文效果新SOTA
文章来源:机器之心
内容字数:3159字
小红书FireRed团队开源基于大模型的语音识别模型FireRedASR,刷新SOTA
机器之心AIxiv专栏报道了小红书FireRed团队最新开源的基于大模型的语音识别模型FireRedASR。该模型在中文语音识别领域取得了显著突破,并在多个公开测试集上刷新了SOTA(State-Of-The-Art),其字错误率(CER)指标大幅降低,展现了强大的性能和广泛的应用潜力。
1. FireRedASR模型概述
FireRedASR系列模型包含两种核心结构:FireRedASR-LLM和FireRedASR-AED。FireRedASR-LLM结合了文本预训练LLM的能力,追求极致的识别准确率,适用于对准确性要求极高的应用场景。FireRedASR-AED基于经典的Attention-based Encoder-Decoder架构,通过扩展参数至1.1B,在高准确率和推理效率之间取得了平衡。
2. 性能突破与SOTA刷新
在业界常用的中文普通话公开测试集上,FireRedASR-LLM(8.3B参数量)取得了最佳CER 3.05%,成为新的SOTA!FireRedASR-AED(1.1B参数量)紧随其后,CER为3.18%。两者均优于此前的SOTA模型Seed-ASR(12+B参数量),且参数量更小。此外,FireRedASR在AISHELL-1、AISHELL-2 iOS测试集以及WenetSpeech的Internet和Meeting测试集上也表现出色,均优于Qwen-Audio、SenseVoice、Whisper和Paraformer等模型。
3. 多场景应用及优势
FireRedASR不仅在公开测试集上表现优异,在包含短视频、直播、语音输入和智能助手等多种来源的Speech测试集上,FireRedASR-LLM的CER相对领先的ASR服务提供商和Paraformer-Large降低了23.7%~40.0%。在歌词识别场景中,CER更是降低了50.2%~66.7%。此外,FireRedASR在中文方言(KeSpeech)和英语(LibriSpeech)测试集上也表现不俗,显著优于之前的开源SOTA模型,展现了其强大的语言适配能力和鲁棒性。
4. 开源贡献
FireRed团队已将FireRedASR的模型和代码全部开源,旨在为语音社区做出贡献,促进ASR的应用和端到端语音交互的发展。其开源地址为:https://github.com/FireRedTeam/FireRedASR。
5. 论文信息
论文标题:FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration
论文地址:http://arxiv.org/abs/2501.14350
FireRedASR的卓越性能源于团队的技术创新,具体细节可参考团队公开的技术报告。该模型的开源,无疑将推动语音识别技术的发展,并为相关应用带来更多可能性。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台