FireRedASR

FireRedASR – 小红书开源的自动语音识别模型

FireRedASR是一款由小红书推出的开源工业级自动语音识别(ASR)模型家族,支持普通话、各类中文方言以及英语。其在普通话ASR基准测试中取得了突破性的最佳性能(SOTA),并在歌词识别方面展现了卓越的能力。

FireRedASR是什么

FireRedASR是小红书开源的工业级自动语音识别(ASR)模型系列,能够识别普通话、不同的中文方言以及英语。在普通话ASR的基准测试中,该模型家族达成了新的最佳水平(SOTA),并在歌词识别的任务中表现出色。整体模型包括两个主要版本:

FireRedASR-LLM:采用Encoder-Adapter-LLM框架,利用大型语言模型(LLM)的强大能力,实现了SOTA的语音识别效果。在普通话的基准测试中,其平均字符错误率(CER)为3.05%,相较于之前的SOTA模型(3.33%)降低了8.4%。

FireRedASR-AED:基于注意力机制的编码器-解码器(AED)架构,兼顾高性能与计算效率,旨在为基于LLM的语音模型提供有效的语音表示。在普通话基准测试中,平均CER为3.18%,超过了参数量超过12B的Seed-ASR模型。

FireRedASR

FireRedASR的主要功能

  • 高精度语音识别:FireRedASR包含两个版本,FireRedASR-LLM和FireRedASR-AED,其中FireRedASR-LLM专注于实现极高的语音识别精度。
  • 高效推理:FireRedASR-AED以经典的注意力机制编码器-解码器架构为基础,参数量为1.1B,兼顾了高准确率和推理效率。
  • 多场景适配:FireRedASR在多种日常应用场景中表现出色,如短视频、直播、语音输入和智能助手等。与行业领先的ASR服务提供商及Paraformer-Large相比,FireRedASR-LLM的CER降低了23.7%至40.0%。
  • 歌词识别能力:在歌词识别场合中,FireRedASR-LLM的CER相对降低了50.2%至66.7%,展现了其强大的适用性。
  • 多语言支持:FireRedASR支持普通话,并在中文方言和英语的语音识别方面表现出色,进一步拓宽了其应用领域。
  • 开源与社区支持:FireRedASR的模型及推理代码均已开源,推动了语音识别技术的社区驱动改进与学术研究。

FireRedASR的技术原理

  • FireRedASR-LLM:该版本采用Encoder-Adapter-LLM框架,结合大型语言模型(LLM)的优势,以实现卓越的语音识别精度。包含三个核心组件:
    • Conformer基础编码器:负责提取语音特征并生成连续的语音表示。
    • 轻量级适配器:将编码器输出转换为与LLM语义空间匹配的表示。
    • 预训练文本LLM:基于Qwen2-7B-Instruct初始化,用于生成最终的文本输出。
    • 训练策略:在训练过程中,编码器和适配器可进行训练,而LLM的大部分参数保持固定,仅通过低秩适应(LoRA)进行微调,以确保有效的语音特征映射到LLM的语义空间,同时保留LLM的预训练能力。
    • 输入与推理:推理时,输入包括提示(prompt)和语音,LLM执行下一个标记预测,生成识别文本。
  • FireRedASR-AED:该版本基于经典的注意力机制的编码器-解码器(AED)架构,兼顾高性能与计算效率。主要组成部分包括:
    • Conformer编码器:基于Conformer模型处理语音特征,能同时捕捉局部和全局的依赖关系。
    • Transformer解码器:采用Transformer架构进行序列转换,包含多头自注意力模块和前馈模块。
    • 输入特征:输入特征为80维的log Mel滤波器组,经过全局均值和方差归一化处理。
    • 训练数据:训练数据包含约7万小时的高质量普通话音频数据和约1.1万小时的英语音频数据。

FireRedASR的项目地址

FireRedASR的应用场景

  • 智能语音助手:FireRedASR可用于开发智能语音助手,如智能家居控制及智能客服等。其高精度的语音识别能力能够准确理解用户的指令,提供流畅的交互体验。
  • 视频和直播:在短视频和直播领域,FireRedASR能够实时生成字幕,帮助观众更好地理解内容。
  • 歌词识别:在歌词识别场景中,FireRedASR表现尤为突出,广泛应用于音乐平台和卡拉OK等场合。
  • 语音输入:FireRedASR可应用于语音输入场景,如语音打字和语音笔记等。其高效的推理能力和高精度的识别效果显著提升用户的输入效率。
阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...