Dolphin

AI工具1个月前更新 AI工具集
363 0 0

Dolphin – 清华联合海天瑞声推出的语音识别大模型

Dolphin

Dolphin是清华大学电子工程系语音与音频技术实验室与海天瑞声共同研发的一款面向东方语言的语音识别大模型。它支持40种东方语言的语音识别,尤其在中文方面,涵盖22种方言(包括普通话),能够精准捕捉不同地区的语言特征。Dolphin的训练数据总时长达到21.2万小时,其中高质量专有数据为13.8万小时,开源数据为7.4万小时。与同等尺寸的Whisper模型相比,Dolphin在词错率(WER)上表现出色,如base版本的平均WER下降了63.1%,而small版本则降低了68.2%。该模型采用CTC-Attention架构,结合E-Branchformer编码器与Transformer解码器,通过4倍下采样层提升计算速度,同时保留关键信息。

Dolphin是什么

Dolphin是由清华大学电子工程系语音与音频技术实验室与海天瑞声共同推出的针对东方语言的语音大模型。它支持40种东方语言的语音识别,中文方面涵盖22种方言(包括普通话),能够精准识别不同地区的语言特点。模型的训练数据总时长达到21.2万小时,其中高质量专有数据占13.8万小时,开源数据为7.4万小时。Dolphin在性能上表现优异,其词错率(WER)明显低于同尺寸的Whisper模型,base版本平均WER降低63.1%,small版本降低68.2%。该模型采用CTC-Attention架构,结合E-Branchformer编码器与Transformer解码器,通过4倍下采样层加速计算并保留关键语音信息。

Dolphin的主要功能

  • 多语言及方言识别:Dolphin支持40种东方语言的语音识别,广泛覆盖不同语言环境,满足多样化的语音识别需求。
  • 高精度语音转文字:Dolphin能够高效且准确地将语音信号转换为文本,确保在多语言和方言的识别任务中保持较高的准确率,减少错误和误解。
  • 自定义语言和地区设置:用户可以根据需求灵活指定识别的语言和地区。Dolphin采用两级语种标签系统,第一标签指定语种(如<zh>表示中文),第二标签指定地区(如<CN>表示中国),使模型能够精准捕捉同一种语言内不同方言和口音的差异,从而提高识别效果。
  • 开源支持与二次开发:Dolphin的base与small版本模型以及推理代码完全开源,为开发者提供了极大的便利。通过开源特性,开发者能够根据自身需求对模型进行二次开发和优化,满足个性化需求,推动语音识别技术在更多领域的应用与创新。
  • 方便快捷的使用方式:Dolphin提供多种使用方式,包括命令行调用和Python接口调用,用户可以通过简单的命令行指令快速启动语音识别任务,或在Python环境中灵活调用模型进行语音处理,提高开发效率和应用灵活性。

Dolphin的技术原理

  • CTC-Attention架构:Dolphin采用CTC-Attention架构,结合了CTC的序列建模能力与注意力机制的上下文捕捉能力,有效处理复杂音频输入时,保持高效处理速度,提升模型准确性和效率。
  • E-Branchformer编码器:E-Branchformer编码器采用并行分支结构,有效捕捉输入语音信号的局部与全局依赖关系,为模型提供丰富特征表示,提升识别准确性。
  • Transformer解码器:Dolphin的解码器采用Transformer架构,在序列到序列任务中表现优秀,生成高质量文本输出。自注意力机制有效捕捉文本中的长距离依赖,确保输出文本的连贯性与质量。
  • 4倍下采样层:为进一步提升训练效率与性能,Dolphin引入4倍下采样层,减少输入特征序列长度,加速计算,同时保留重要语音信息,确保模型识别效果。
  • 两级语种标签系统:Dolphin引入创新性的两级语种标签系统,第一标签指定语种(例如<zh>表示中文),第二标签指定地区(例如<CN>表示中国),增强模型对方言和语言相似性的捕捉能力。

Dolphin的项目地址

Dolphin的应用场景

  • 会议记录:自动将会议中的语音内容转化为文字记录,提升工作效率。
  • 语音输入法:在智能设备上,用户能够通过语音输入文字,减少手动输入的烦恼,提升输入速度与便利性。
  • 智能语音助手:支持多种语言和方言,能够更好地理解用户的语音指令,提供准确反馈,减少因方言或口音引起的误解。
  • 智能家居:用户可以通过语音控制智能家居设备,例如灯光、空调等,提升家居智能化和便利性。
  • 新闻媒体:快速将新闻采访、播客等语音内容转化为文字,方便编辑与发布。
  • 语言学习:支持多种语言和方言的识别,帮助学生练习发音与语言表达。

常见问题

  • Dolphin支持哪些语言和方言?:Dolphin支持40种东方语言的语音识别,其中中文涵盖了22种方言。
  • 如何使用Dolphin进行语音识别?:用户可以通过命令行或Python接口调用Dolphin进行语音识别任务,使用简单的指令即可启动。
  • Dolphin是开源的吗?:是的,Dolphin的base和small版本模型及推理代码均已开源,开发者可以使用和改进。
  • 如何进行模型微调?:用户可以根据自身需求,利用开源代码进行模型的二次开发和微调,以适应特定的应用场景。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...