阿里开源语音处理模型 FunAudioLLM ：50 种语言无缝翻译，还能识别语音情绪

AIGC动态1年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：阿里开源语音处理模型 FunAudioLLM ：50 种语言无缝翻译，还能识别语音情绪
关键字：模型,语音,情感,技术,语言
文章来源：AI前线
内容字数：0字

内容摘要：

作者 | 赵明华
阿里巴巴通义实验室近日发布并开源了 FunAudioLLM，这是一个旨在增强人与大型语言模型（LLMs）之间自然语音交互的框架，代表了语音处理领域的最新进展。
这一框架的核心是两个创新模型：SenseVoice 和 CosyVoice。这两个模型不仅在多语言语音识别、情感识别、音频检测和自然语音生成方面表现出色，还展示了极高的成熟度和广泛的应用潜力。SenseVoice：精准多语言识别与情感辨识
● 多语言识别：采用超过 40 万小时的数据训练，支持超过 50 种语言，在中文和粤语上的识别准确度提升超过 50%。
● 情感辨识：具备出色的情感识别能力，在测试数据上达到或超过当前最佳情感识别模型的效果。
● 声音检测：能够识别多种情绪和交互，如音乐、掌声、笑声、哭声等。
● 模型架构：包括自动语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频检测（AED），能够适应不同应用场景。CosyVoice：模拟音色与提升情感表现力
● 多语言合成：采用了总共超 15 万小时的数据训练，支持中英日粤韩 5 种语言的合成，合成效果显著优于传统语音合成

原文链接：阿里开源语音处理模型 FunAudioLLM ：50 种语言无缝翻译，还能识别语音情绪