Chroma 1.0

AI工具10小时前更新 AI工具集
0 0 0

Chroma 1.0 – FlashLabs开源的实时端到端语音对话模型

FlashLabs隆重推出Chroma 1.0,这是其首款开源的实时端到端语音对话模型,集低延迟互动、逼真个性化语音克隆以及卓越的对话能力于一身。该模型通过深度融合语音的理解与生成过程,运用1:2的文本-音频 token 调度策略,成功实现了亚秒级的即时响应。

Chroma 1.0 究竟是什么?

Chroma 1.0 是FlashLabs精心打造的首款开源实时端到端语音对话模型,它巧妙地结合了迅捷的交互体验、高度逼真的个性化语音复刻以及强大的对话功能。模型的核心在于其语音理解与生成模块的紧密协作,辅以1:2的文本-音频 token 调度机制,从而让响应速度缩短至亚秒级别。只需短短几秒的参考音频,Chroma 1.0 就能精准捕捉并重现说话人的独特音色特征,在 speaker 相似度上超越人类基准高达10.96%。尽管模型参数量仅为4B,其在推理与口语对话任务中的表现却尤为出色,实现了效率与性能的完美平衡。

Chroma 1.0 的核心亮点

  • 即时语音交流:支持极低的语音对话延迟,端到端延迟小于1秒,完美契合需要即时互动的应用场景。
  • 精妙语音复刻:仅需数秒钟的参考音频,即可合成高度相似的个性化语音,音色还原度较人类基准提升10.96%。
  • 深邃对话洞察:模型具备强大的理解、推理及口语对话能力,能够应对复杂多样的对话任务,包括故事逻辑推演和事实判定等。
  • 流畅信息输出:采用流式输出架构,支持不间断的对话体验,生成速度超越实时播放(RTF仅为0.43)。
  • 多维信息整合:融合文本与音频输入,精细保留语音中的韵律、语调等副语言信息,打造更为自然流畅的交互体验。

Chroma 1.0 的技术基石

  • 协同的语音理解与生成:将语音理解单元(Chroma Reasoner)与语音生成单元(Chroma Backbone、Chroma Decoder 及 Chroma Codec Decoder)深度整合,通过语义状态的精准传递,实现低延迟的流式输出。
  • 1:2 文本-音频 token 协同机制:在生成过程中,每一个文本 token 都对应两个音频码本 token,确保音频与文本的同步生成,显著削减延迟。
  • 高度还原的语音克隆:通过将参考音频及其对应的文本编码至输入序列,模型得以学习并精确复现特定说话人的音色特质。
  • 跨模态注意力机制:运用跨模态注意力机制以及时间对齐的多模态旋转位置编码(TM-RoPE),保障语音与文本在时间维度上的精确同步,提升对话的自然流畅度。
  • 离散声学表征与因果卷积网络:模型采用离散声学码本来表征语音,并借助因果卷积神经网络(Causal CNN)进行波形重构,从而支持实时流式输出。

Chroma 1.0 的项目链接

  • GitHub 仓库:https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma
  • HuggingFace 模型中心:https://huggingface.co/FlashLabs/Chroma-4B
  • arXiv 技术论文:https://arxiv.org/pdf/2601.11141

Chroma 1.0 的广阔应用前景

  • 智慧客服:为用户提供即时语音互动服务,迅速响应客户需求,提供量身定制的语音解答,显著提升用户满意度。
  • 智能语音助手:集成于智能家居及各类智能设备中,通过自然语音对话实现设备控制,带来便捷的操作体验。
  • 虚拟主播:应用于新闻播报、直播等领域,生成逼真语音,模拟特定主播风格,丰富内容表现形式。
  • 语音内容创作:赋能内容创作者,助力生成高质量语音内容,如电子书朗读、语音故事等,大幅提升创作效率。
  • 教育新领域:为语言学习者提供个性化的语音对话练习平台,实时反馈发音与语调,有效促进语言学习成效。
阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...