大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！
关键字：模型,报告,语音,上下文,团队
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心发布
机器之心编辑部2024 火山引擎 AI 创新巡展上海站于近日举办，活动展示了豆包大模型在综合评分、语音识别等方面的效果提升，还发布了对话式 AI 实时交互解决方案。豆包大模型团队成果 Seed-ASR ，提供了语音识别能力支持。
Seed-ASR 是一款 ASR（自动语音识别）成果。它能准确转录各种语音信号，识别不同语言、方言、口音。对于人名、生词，Seed-ASR 也能结合文本语音等上下文，实现更准确转录。该成果目前已被集成进豆包 APP 、火山引擎相关服务模块中。本文介绍了 Seed-ASR 技术亮点——高精度识别、大容量模型、支持多种语言、上下文感知、分阶段训练方法。相关同学还分享了立项动机、研发历程及总结思考，展望了大模型 Scaling Laws 对 ASR 技术的推动和影响。8 月 21 日，2024 火山引擎 AI 创新巡展﹒上海站带来了豆包大模型最新进展。
公开及内部测评集显示，最新版本豆包大模型对比 5 月 15 日发布版本综合能力提升 20.3% ，其中，角色扮演能力提升 38.3% ，语言理解能力提升 33.3% ，数学能力提升 13.5% 。根据

原文链接：大模型时代的ASR就是不一样！豆包“听力”水平现场评测，方言&小朋友口音直接拿捏！