阿里开源语音处理模型 FunAudioLLM :50 种语言无缝翻译,还能识别语音情绪

AIGC动态6个月前发布 AI前线
7 0 0

阿里开源语音处理模型 FunAudioLLM :50 种语言无缝翻译,还能识别语音情绪

AIGC动态欢迎阅读

原标题:阿里开源语音处理模型 FunAudioLLM :50 种语言无缝翻译,还能识别语音情绪
关键字:模型,语音,情感,技术,语言
文章来源:AI前线
内容字数:0字

内容摘要:


作者 | 赵明华
阿里巴巴通义实验室近日发布并开源了 FunAudioLLM,这是一个旨在增强人与大型语言模型(LLMs)之间自然语音交互的框架,代表了语音处理领域的最新进展。
这一框架的核心是两个创新模型:SenseVoice 和 CosyVoice。这两个模型不仅在多语言语音识别、情感识别、音频检测和自然语音生成方面表现出色,还展示了极高的成熟度和广泛的应用潜力。SenseVoice:精准多语言识别与情感辨识
● 多语言识别:采用超过 40 万小时的数据训练,支持超过 50 种语言,在中文和粤语上的识别准确度提升超过 50%。
● 情感辨识:具备出色的情感识别能力,在测试数据上达到或超过当前最佳情感识别模型的效果。
● 声音检测:能够识别多种情绪和交互,如音乐、掌声、笑声、哭声等。
● 模型架构:包括自动语音识别(ASR)、语言识别(LID)、情感识别(SER)以及音频检测(AED),能够适应不同应用场景。CosyVoice:模拟音色与提升情感表现力
● 多语言合成:采用了总共超 15 万小时的数据训练,支持中英日粤韩 5 种语言的合成,合成效果显著优于传统语音合成


原文链接:阿里开源语音处理模型 FunAudioLLM :50 种语言无缝翻译,还能识别语音情绪

联系作者

文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...