Dolphin

AI工具1年前 (2025)更新 AI工具集

Dolphin – 清华联合海天瑞声推出的语音识别大模型

Dolphin

Dolphin是清华大学电子工程系语音与音频技术实验室与海天瑞声共同研发的一款面向东方语言的语音识别大模型。它支持40种东方语言的语音识别，尤其在中文方面，涵盖22种方言（包括普通话），能够精准捕捉不同地区的语言特征。Dolphin的训练数据总时长达到21.2万小时，其中高质量专有数据为13.8万小时，开源数据为7.4万小时。与同等尺寸的Whisper模型相比，Dolphin在词错率（WER）上表现出色，如base版本的平均WER下降了63.1%，而small版本则降低了68.2%。该模型采用CTC-Attention架构，结合E-Branchformer编码器与Transformer解码器，通过4倍下采样层提升计算速度，同时保留关键信息。

Dolphin是什么

Dolphin是由清华大学电子工程系语音与音频技术实验室与海天瑞声共同推出的针对东方语言的语音大模型。它支持40种东方语言的语音识别，中文方面涵盖22种方言（包括普通话），能够精准识别不同地区的语言特点。模型的训练数据总时长达到21.2万小时，其中高质量专有数据占13.8万小时，开源数据为7.4万小时。Dolphin在性能上表现优异，其词错率（WER）明显低于同尺寸的Whisper模型，base版本平均WER降低63.1%，small版本降低68.2%。该模型采用CTC-Attention架构，结合E-Branchformer编码器与Transformer解码器，通过4倍下采样层加速计算并保留关键语音信息。

Dolphin的主要功能

多语言及方言识别：Dolphin支持40种东方语言的语音识别，广泛覆盖不同语言环境，满足多样化的语音识别需求。
高精度语音转文字：Dolphin能够高效且准确地将语音信号转换为文本，确保在多语言和方言的识别任务中保持较高的准确率，减少错误和误解。
自定义语言和地区设置：用户可以根据需求灵活指定识别的语言和地区。Dolphin采用两级语种标签系统，第一标签指定语种（如<zh>表示中文），第二标签指定地区（如<CN>表示中国），使模型能够精准捕捉同一种语言内不同方言和口音的差异，从而提高识别效果。
开源支持与二次开发：Dolphin的base与small版本模型以及推理代码完全开源，为开发者提供了极大的便利。通过开源特性，开发者能够根据自身需求对模型进行二次开发和优化，满足个性化需求，推动语音识别技术在更多领域的应用与创新。
方便快捷的使用方式：Dolphin提供多种使用方式，包括命令行调用和Python接口调用，用户可以通过简单的命令行指令快速启动语音识别任务，或在Python环境中灵活调用模型进行语音处理，提高开发效率和应用灵活性。

Dolphin的技术原理

CTC-Attention架构：Dolphin采用CTC-Attention架构，结合了CTC的序列建模能力与注意力机制的上下文捕捉能力，有效处理复杂音频输入时，保持高效处理速度，提升模型准确性和效率。
E-Branchformer编码器：E-Branchformer编码器采用并行分支结构，有效捕捉输入语音信号的局部与全局依赖关系，为模型提供丰富特征表示，提升识别准确性。
Transformer解码器：Dolphin的解码器采用Transformer架构，在序列到序列任务中表现优秀，生成高质量文本输出。自注意力机制有效捕捉文本中的长距离依赖，确保输出文本的连贯性与质量。
4倍下采样层：为进一步提升训练效率与性能，Dolphin引入4倍下采样层，减少输入特征序列长度，加速计算，同时保留重要语音信息，确保模型识别效果。
两级语种标签系统：Dolphin引入创新性的两级语种标签系统，第一标签指定语种（例如<zh>表示中文），第二标签指定地区（例如<CN>表示中国），增强模型对方言和语言相似性的捕捉能力。