Chroma 1.0

Chroma 1.0 – FlashLabs开源的实时端到端语音对话模型

FlashLabs隆重推出Chroma 1.0，这是其首款开源的实时端到端语音对话模型，集低延迟互动、逼真个性化语音克隆以及卓越的对话能力于一身。该模型通过深度融合语音的理解与生成过程，运用1:2的文本-音频 token 调度策略，成功实现了亚秒级的即时响应。

Chroma 1.0 究竟是什么？

Chroma 1.0 是FlashLabs精心打造的首款开源实时端到端语音对话模型，它巧妙地结合了迅捷的交互体验、高度逼真的个性化语音复刻以及强大的对话功能。模型的核心在于其语音理解与生成模块的紧密协作，辅以1:2的文本-音频 token 调度机制，从而让响应速度缩短至亚秒级别。只需短短几秒的参考音频，Chroma 1.0 就能精准捕捉并重现说话人的独特音色特征，在 speaker 相似度上超越人类基准高达10.96%。尽管模型参数量仅为4B，其在推理与口语对话任务中的表现却尤为出色，实现了效率与性能的完美平衡。

Chroma 1.0 的核心亮点

即时语音交流：支持极低的语音对话延迟，端到端延迟小于1秒，完美契合需要即时互动的应用场景。
精妙语音复刻：仅需数秒钟的参考音频，即可合成高度相似的个性化语音，音色还原度较人类基准提升10.96%。
深邃对话洞察：模型具备强大的理解、推理及口语对话能力，能够应对复杂多样的对话任务，包括故事逻辑推演和事实判定等。
流畅信息输出：采用流式输出架构，支持不间断的对话体验，生成速度超越实时播放（RTF仅为0.43）。
多维信息整合：融合文本与音频输入，精细保留语音中的韵律、语调等副语言信息，打造更为自然流畅的交互体验。

Chroma 1.0 的技术基石

协同的语音理解与生成：将语音理解单元（Chroma Reasoner）与语音生成单元（Chroma Backbone、Chroma Decoder 及 Chroma Codec Decoder）深度整合，通过语义状态的精准传递，实现低延迟的流式输出。
1:2 文本-音频 token 协同机制：在生成过程中，每一个文本 token 都对应两个音频码本 token，确保音频与文本的同步生成，显著削减延迟。
高度还原的语音克隆：通过将参考音频及其对应的文本编码至输入序列，模型得以学习并精确复现特定说话人的音色特质。
跨模态注意力机制：运用跨模态注意力机制以及时间对齐的多模态旋转位置编码（TM-RoPE），保障语音与文本在时间维度上的精确同步，提升对话的自然流畅度。
离散声学表征与因果卷积网络：模型采用离散声学码本来表征语音，并借助因果卷积神经网络（Causal CNN）进行波形重构，从而支持实时流式输出。