FireRedASR

FireRedASR – 小红书开源的自动语音识别模型

FireRedASR是一款由小红书推出的开源工业级自动语音识别（ASR）模型家族，支持普通话、各类中文方言以及英语。其在普通话ASR基准测试中取得了突破性的最佳性能（SOTA），并在歌词识别方面展现了卓越的能力。

FireRedASR是小红书开源的工业级自动语音识别（ASR）模型系列，能够识别普通话、不同的中文方言以及英语。在普通话ASR的基准测试中，该模型家族达成了新的最佳水平（SOTA），并在歌词识别的任务中表现出色。整体模型包括两个主要版本：

FireRedASR-LLM：采用Encoder-Adapter-LLM框架，利用大型语言模型（LLM）的强大能力，实现了SOTA的语音识别效果。在普通话的基准测试中，其平均字符错误率（CER）为3.05%，相较于之前的SOTA模型（3.33%）降低了8.4%。

FireRedASR-AED：基于注意力机制的编码器-解码器（AED）架构，兼顾高性能与计算效率，旨在为基于LLM的语音模型提供有效的语音表示。在普通话基准测试中，平均CER为3.18%，超过了参数量超过12B的Seed-ASR模型。

FireRedASR

高精度语音识别：FireRedASR包含两个版本，FireRedASR-LLM和FireRedASR-AED，其中FireRedASR-LLM专注于实现极高的语音识别精度。
高效推理：FireRedASR-AED以经典的注意力机制编码器-解码器架构为基础，参数量为1.1B，兼顾了高准确率和推理效率。
多场景适配：FireRedASR在多种日常应用场景中表现出色，如短视频、直播、语音输入和智能助手等。与行业领先的ASR服务提供商及Paraformer-Large相比，FireRedASR-LLM的CER降低了23.7%至40.0%。
歌词识别能力：在歌词识别场合中，FireRedASR-LLM的CER相对降低了50.2%至66.7%，展现了其强大的适用性。
多语言支持：FireRedASR支持普通话，并在中文方言和英语的语音识别方面表现出色，进一步拓宽了其应用领域。
开源与社区支持：FireRedASR的模型及推理代码均已开源，推动了语音识别技术的社区驱动改进与学术研究。

FireRedASR-LLM：该版本采用Encoder-Adapter-LLM框架，结合大型语言模型（LLM）的优势，以实现卓越的语音识别精度。包含三个核心组件：
- Conformer基础编码器：负责提取语音特征并生成连续的语音表示。
- 轻量级适配器：将编码器输出转换为与LLM语义空间匹配的表示。
- 预训练文本LLM：基于Qwen2-7B-Instruct初始化，用于生成最终的文本输出。
- 训练策略：在训练过程中，编码器和适配器可进行训练，而LLM的大部分参数保持固定，仅通过低秩适应（LoRA）进行微调，以确保有效的语音特征映射到LLM的语义空间，同时保留LLM的预训练能力。
- 输入与推理：推理时，输入包括提示（prompt）和语音，LLM执行下一个标记预测，生成识别文本。
FireRedASR-AED：该版本基于经典的注意力机制的编码器-解码器（AED）架构，兼顾高性能与计算效率。主要组成部分包括：
- Conformer编码器：基于Conformer模型处理语音特征，能同时捕捉局部和全局的依赖关系。
- Transformer解码器：采用Transformer架构进行序列转换，包含多头自注意力模块和前馈模块。
- 输入特征：输入特征为80维的log Mel滤波器组，经过全局均值和方差归一化处理。
- 训练数据：训练数据包含约7万小时的高质量普通话音频数据和约1.1万小时的英语音频数据。

智能语音助手：FireRedASR可用于开发智能语音助手，如智能家居控制及智能客服等。其高精度的语音识别能力能够准确理解用户的指令，提供流畅的交互体验。
视频和直播：在短视频和直播领域，FireRedASR能够实时生成字幕，帮助观众更好地理解内容。
歌词识别：在歌词识别场景中，FireRedASR表现尤为突出，广泛应用于音乐平台和卡拉OK等场合。
语音输入：FireRedASR可应用于语音输入场景，如语音打字和语音笔记等。其高效的推理能力和高精度的识别效果显著提升用户的输入效率。