Fun-ASR1.5

Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型

Fun-ASR1.5：阿里通义团队打造新一代多语种语音识别巨擘

阿里通义团队倾力打造的Fun-ASR1.5，作为其端到端语音识别大模型的革新之作，正以前所未有的能力重新定义语音转写体验。这款模型单枪匹马便能精准驾驭30种语言，其卓越的中文方言识别能力尤为突出，涵盖了中国七大方言体系及二十余种地方口音，更在古诗词诵读的专项优化上取得了显著突破。

Fun-ASR1.5的核心亮点在于其基于MoE（混合专家）架构的智能语种切换功能，彻底摆脱了对预设标签的依赖。这意味着无论输入的是何种语言，模型都能瞬间洞察并自如切换，实现无缝的多语言混合语音识别。此外，模型还引入了智能标点预测和文本归一化等后处理能力，将语音转写从“可用”提升至“好用”的新境界。

Fun-ASR1.5的主要亮点概览

Fun-ASR1.5背后的技术驱动力

MoE架构的智慧：采用先进的混合专家（MoE）架构，模型在处理特定语言时，仅激活与之相关的“专家”网络，大大提升了多语言处理的灵活性与效率。
分级分阶段的精细训练：在训练过程中，模型经历了分级、分阶段的精准数据注入，使其能够从容应对真实世界中复杂多变的语音场景。
方言数据的力量：海量的数十万小时真实方言语音数据训练，使得Fun-ASR1.5的平均字错误率（CER）相比上一代产品大幅下降56.2%，方言识别能力遥遥领先。
古诗词语料库的深度挖掘：精心打造的真人诵读语料库，涵盖了《诗经》、《楚辞》、李白、杜甫、苏轼、辛弃疾等经典作品的录音，为古诗词识别提供了坚实基础。

如何体验Fun-ASR1.5的强大能力

阿里云百炼平台：前往阿里云百炼官网，在模型体验中心语音板块，即可便捷调用API感受其卓越性能。
魔搭社区：访问https://modelscope.cn/studios/iic/FunAudio-ASR，即可在线即时体验Fun-ASR1.5的各项功能。

Fun-ASR1.5的关键信息与使用须知

Fun-ASR1.5的核心竞争力

Fun-ASR1.5与同类竞品的技术实力比拼

维度	Fun-ASR1.5	Seed-ASR	Tencent-ASR
语言覆盖	30种语言，单模型一体化支持	支持多语言	支持多语言
方言支持	七大方言体系，15种重点优化，CER下降56.2%	基础支持	基础支持
Code-Switching	无需预设标签，自动识别切换	支持	支持
古诗词识别	专项优化，字符准确率达97%	未明确	未明确
智能后处理	自动标点+文本归一化（数字/日期/金额/电话）	基础标点能力	基础标点能力
架构特点	MoE混合专家架构	未公开	未公开
开放体验渠道	阿里云百炼API + 魔搭社区	火山引擎	腾讯云

Fun-ASR1.5的广泛应用场景

跨国会议的无缝沟通：在多语言混合的跨国会议中，Fun-ASR1.5能够实时、精准地转写发言内容，无需参会者费心预设语种或在繁杂的翻译工具间切换。
智能音箱的“方言智囊”：在智能家居及车载语音交互领域，Fun-ASR1.5能够精准识别各种地方口音的指令，让智能音箱真正实现“听懂乡音”。
在线教育的文化传承者：在国学在线教育场景中，Fun-ASR1.5凭借97%的字符级准确率，能够精准转写古诗词诵读，为传统文化的数字化传承提供有力支持。
新闻采访的效率加速器：在新闻报道和内容生产环节，Fun-ASR1.5能够自动添加标点符号，并将口语化的数字、日期等信息规范化，大幅缩短后期人工整理的时间。