MooER

AI工具2年前 (2024)发布 AI工具集

MooER是摩尔线程推出的首个基于国产全功能GPU训练的开源音频理解大模型。具备中文和英文的语音识别能力，并且能够进行中译英的语音翻译，MooER在Covost2中译英测试集中取得了25.2的BLEU分数，接近工业级水平。摩尔线程的AI团队已经开源了推理代码和5000小时的训练模型，并计划进一步开源训练代码和8万小时训练模型，推动AI语音技术的发展。

MooER是什么

MooER是由摩尔线程开发的一款开源音频理解大模型，首创于基于国产全功能GPU训练的领域。它不仅支持中文和英文的语音转文本功能，还具备将中文语音翻译成英文文本的能力。MooER在多个测试中表现优异，显示出其接近工业级的效果。该模型的推理代码及部分训练模型已经开源，旨在促进AI语音技术的进一步研究与应用。

MooER

MooER的主要功能

语音识别：支持中文和英文的语音转文本，方便用户获取语音内容。
语音翻译：能够将中文语音翻译成英文文本，适合多语言交流。
高效训练：利用摩尔线程的智算平台，快速处理和训练大量数据。
开源模型：推理代码和部分训练模型已公开，便于开发者和研究者使用与研究。

MooER的技术原理

深度学习架构：MooER采用深度学习技术，特别是神经网络，来分析和理解语音信号。
端到端训练：模型直接从原始语音信号生成文本输出，简化了传统语音识别系统的多个模块。
Encoder-Adapter-Decoder结构：
- Encoder：将输入的语音信号转化为高级特征表示。
- Adapter：优化模型以适应特定任务，提高泛化能力。
- Decoder（Large Language Model，LLM）：根据特征生成最终的文本输出。
LoRA技术：采用低秩适应（LoRA）技术，这是一种高效的模型微调方法，通过更新少量参数提升训练效果。
伪标签训练：在训练中使用模型自身的预测作为伪标签，以增强学习能力。
多语言支持：MooER能够处理中文和英文的语音识别及中译英翻译，展现出其多语言处理能力。