Gummy – 通义推出的端到端语音翻译大模型,能实时流式生成结果

Gummy是通义实验室于2024年云栖大会上发布的一款创新型端到端语音翻译大模型。其独特之处在于能够实时流式生成语音识别与翻译结果,支持包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等十余种语言的语音输入,轻松转换为目标语言。Gummy利用先进的技术,显著降低翻译延迟,并提升翻译质量,已在多个测试集上取得尖端的成果。同时,该模型具备多语言混合翻译、术语干预及领域提示等多种商业化应用能力,能够在跨国会议等多样化场景中无缝翻译各国语言。

Gummy是什么

Gummy是通义实验室在2024年云栖大会上推出的一个全新端到端语音翻译大模型。该模型的设计旨在实时生成语音识别与翻译结果,支持多达十几种语言的语音输入,并将其流畅地翻译成所需目标语言。Gummy通过端到端架构有效减少了翻译延迟,提高了翻译质量,取得了在多个标准测试集上的SOTA(State of the Art)表现。其多语言混合翻译及术语调整能力,使其在国际场合中表现出色,无需提前指定源语种即可实现高效翻译。

Gummy - 通义推出的端到端语音翻译大模型,能实时流式生成结果

Gummy的主要功能

  • 多语言支持:Gummy能够处理包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语和西班牙语等多种语言的语音输入,实时翻译成目标语言。
  • 端到端翻译:Gummy采用了端到端的设计,直接将语音转换为目标语言,简化了传统翻译系统的复杂流程。
  • 低延迟翻译:该模型的翻译延迟低于0.5秒,速度甚至超过人类同声传译的反应时间。
  • 高质量翻译:在多个公认的开源测试集上,Gummy展现出顶尖的翻译质量,达到SOTA水平。
  • 流式翻译:Gummy支持实时逐句翻译,适合各种实时交流场景。

Gummy的技术原理

  • 端到端设计:Gummy通过端到端架构将源语言的语音直接映射为目标语言的文本输出,极大地简化了开发流程,提升了系统性能。
  • 深度神经网络:基于深度学习技术,尤其是深度神经网络,Gummy能够高效地学习语音与文本之间的复杂关系。
  • 实时流式处理:支持同步进行语音识别和翻译,以实现边听边翻译的功能。
  • wait & predict机制:模型内部采用独特机制,自动判断翻译时机,以优化翻译质量和延迟。

Gummy的项目地址

  • 项目官网tongyi.aliyun.com,目前Gummy的部分功能已在通义APP上上线,用户可下载体验。

Gummy的应用场景

  • 实时语音翻译:Gummy能够在会议中实时翻译发言,为国际会议和多语言谈判提供同声传译服务。
  • 教育和培训:在教育领域,Gummy辅助语言学习,实时翻译多语言教学内容,帮助师生克服语言障碍。
  • 旅游和导航:为旅行者提供实时语音翻译,助力他们与不同语言的当地人进行交流,或在导航过程中提供多语言指引。
  • 客户服务:在客户服务领域,Gummy作为多语言客服助手,提供快速而准确的语言支持,提升客户的满意度。
  • 医疗咨询:在医疗领域,Gummy提供多语言的医疗咨询翻译服务,促进医生与患者之间的有效沟通。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...