Hibiki

AI工具2个月前更新 AI工具集
533 0 0

Hibiki – Kyutai Labs 推出的实时语音翻译模型

Hibiki是Kyutai Labs开发的一款开源解码器模型,专注于实时语音翻译。它能够将一种语言的语音即时转换为另一种语言的语音或文本,基于先进的多流语言模型架构,Hibiki同时处理源语言和目标语言的语音,联动生成文本与音频标记,从而实现语音到语音(S2ST)和语音到文本(S2TT)的翻译功能。

Hibiki是什么

Hibiki是Kyutai Labs推出的一款开源解码器模型,旨在实现实时的语言翻译。它可以将一种语言的语音转化为另一种语言的语音或文本。Hibiki依托多流语言模型架构,能够同步处理源语音与目标语音,联合生成文本和音频标记,具备语音到语音(S2ST)和语音到文本(S2TT)的翻译功能。通过弱监督学习方法,Hibiki根据文本翻译系统的困惑度识别最佳的单词级延迟,从而创建对齐的合成数据进行训练。该模型在法语到英语的翻译任务中表现优异,展现出高翻译质量、说话者的音色保真度和自然度,同时支持批量翻译和实时设备端部署,显示了强大的实用潜力。

Hibiki

Hibiki的主要功能

  • 实时语音到语音翻译(S2ST):能够将一种语言的语音实时翻译为另一种语言的语音,保持说话者的音色和语调。
  • 实时语音到文本翻译(S2TT):将语音实时转换为目标语言的文本,提供更多的使用场景选择。
  • 低延迟翻译:通过实时积累上下文信息,逐块生成翻译内容,延迟极低,接近人类口译的水平。
  • 高保真度:生成的语音自然流畅,与源语音的音色和语调高度相似,用户体验接近专业人类口译。
  • 支持批量和实时部署:推理过程简单高效,支持批量处理以及实时设备端部署,适合大规模应用。

Hibiki的技术原理

  • 多流语言模型架构
    • 同步处理:同时接收源语音并生成目标语音,基于多流架构联合建模两个音频流。
    • 文本和音频标记:模型预测文本与音频标记的层次结构,实现语音到文本和语音到语音的翻译。
    • 因果音频编解码器:利用预训练的因果音频编解码器(如Mimi)将语音编码为低帧率的离散标记,支持实时流式处理。
  • 弱监督学习与上下文对齐
    • 合成数据生成:基于翻译单语音频的转录文本重新合成目标语音,生成对齐的合成数据。
    • 上下文对齐:利用现成文本翻译系统的困惑度,计算单词级对齐,确保目标语音的生成与源语音的上下文保持同步。
    • 静音插入与对齐感知TTS:通过插入静音或利用对齐感知的TTS模型重新合成目标语音,确保目标语音的延迟符合实时翻译的需求。
  • 说话者相似性与分类器引导
    • 说话者相似性标记:对训练数据进行说话者相似性分类标记,确保在推理时优先选择高相似性样本。
    • 分类器引导:调整条件标签的权重,增强模型对说话者相似性的控制,进一步提升语音的保真度。
  • 高效的推理过程
    • 温度采样:运用温度采样技术,结合因果音频编解码器,实现流式输入与输出。
    • 批量处理与实时部署:推理过程简单高效,支持批量处理和实时设备端部署,适合大规模应用。

Hibiki的项目地址

Hibiki的应用场景

  • 国际会议:在会议中实时翻译不同语言的发言,帮助与会者即时理解内容。
  • 在线教育:将教师的授课语音实时翻译,帮助学生无障碍地学习。
  • 旅游出行:实时翻译导游的讲解或与当地人的交流,提升旅游体验。
  • 新闻采访:辅助记者快速翻译采访内容,提升报道的效率。
  • 客户服务:实现多语言客服沟通,提升客户满意度。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...