FireRedASR – 小红书开源的自动语音识别模型
FireRedASR是一款由小红书推出的开源工业级自动语音识别(ASR)模型家族,支持普通话、各类中文方言以及英语。其在普通话ASR基准测试中取得了突破性的最佳性能(SOTA),并在歌词识别方面展现了卓越的能力。
FireRedASR是什么
FireRedASR是小红书开源的工业级自动语音识别(ASR)模型系列,能够识别普通话、不同的中文方言以及英语。在普通话ASR的基准测试中,该模型家族达成了新的最佳水平(SOTA),并在歌词识别的任务中表现出色。整体模型包括两个主要版本:
FireRedASR-LLM:采用Encoder-Adapter-LLM框架,利用大型语言模型(LLM)的强大能力,实现了SOTA的语音识别效果。在普通话的基准测试中,其平均字符错误率(CER)为3.05%,相较于之前的SOTA模型(3.33%)降低了8.4%。
FireRedASR-AED:基于注意力机制的编码器-解码器(AED)架构,兼顾高性能与计算效率,旨在为基于LLM的语音模型提供有效的语音表示。在普通话基准测试中,平均CER为3.18%,超过了参数量超过12B的Seed-ASR模型。
FireRedASR的主要功能
- 高精度语音识别:FireRedASR包含两个版本,FireRedASR-LLM和FireRedASR-AED,其中FireRedASR-LLM专注于实现极高的语音识别精度。
- 高效推理:FireRedASR-AED以经典的注意力机制编码器-解码器架构为基础,参数量为1.1B,兼顾了高准确率和推理效率。
- 多场景适配:FireRedASR在多种日常应用场景中表现出色,如短视频、直播、语音输入和智能助手等。与行业领先的ASR服务提供商及Paraformer-Large相比,FireRedASR-LLM的CER降低了23.7%至40.0%。
- 歌词识别能力:在歌词识别场合中,FireRedASR-LLM的CER相对降低了50.2%至66.7%,展现了其强大的适用性。
- 多语言支持:FireRedASR支持普通话,并在中文方言和英语的语音识别方面表现出色,进一步拓宽了其应用领域。
- 开源与社区支持:FireRedASR的模型及推理代码均已开源,推动了语音识别技术的社区驱动改进与学术研究。
FireRedASR的技术原理
- FireRedASR-LLM:该版本采用Encoder-Adapter-LLM框架,结合大型语言模型(LLM)的优势,以实现卓越的语音识别精度。包含三个核心组件:
- Conformer基础编码器:负责提取语音特征并生成连续的语音表示。
- 轻量级适配器:将编码器输出转换为与LLM语义空间匹配的表示。
- 预训练文本LLM:基于Qwen2-7B-Instruct初始化,用于生成最终的文本输出。
- 训练策略:在训练过程中,编码器和适配器可进行训练,而LLM的大部分参数保持固定,仅通过低秩适应(LoRA)进行微调,以确保有效的语音特征映射到LLM的语义空间,同时保留LLM的预训练能力。
- 输入与推理:推理时,输入包括提示(prompt)和语音,LLM执行下一个标记预测,生成识别文本。
- FireRedASR-AED:该版本基于经典的注意力机制的编码器-解码器(AED)架构,兼顾高性能与计算效率。主要组成部分包括:
- Conformer编码器:基于Conformer模型处理语音特征,能同时捕捉局部和全局的依赖关系。
- Transformer解码器:采用Transformer架构进行序列转换,包含多头自注意力模块和前馈模块。
- 输入特征:输入特征为80维的log Mel滤波器组,经过全局均值和方差归一化处理。
- 训练数据:训练数据包含约7万小时的高质量普通话音频数据和约1.1万小时的英语音频数据。
FireRedASR的项目地址
- Github仓库:https://github.com/FireRedTeam/FireRedASR
- HuggingFace模型库:https://huggingface.co/FireRedTeam/FireRedASR-AED-L
- arXiv技术论文:https://arxiv.org/pdf/2501.14350
FireRedASR的应用场景
- 智能语音助手:FireRedASR可用于开发智能语音助手,如智能家居控制及智能客服等。其高精度的语音识别能力能够准确理解用户的指令,提供流畅的交互体验。
- 视频和直播:在短视频和直播领域,FireRedASR能够实时生成字幕,帮助观众更好地理解内容。
- 歌词识别:在歌词识别场景中,FireRedASR表现尤为突出,广泛应用于音乐平台和卡拉OK等场合。
- 语音输入:FireRedASR可应用于语音输入场景,如语音打字和语音笔记等。其高效的推理能力和高精度的识别效果显著提升用户的输入效率。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...