Nemotron Speech ASR

Nemotron Speech ASR – 英伟达开源的语音识别模型

Nemotron Speech ASR：英伟达革新实时语音识别的利器

Nemotron Speech ASR，由英伟达倾力打造并开源，是一款专为低延迟、实时流式语音识别而生的模型。其核心亮点在于创新的缓存感知架构，通过智能地缓存已处理的语音特征，仅对新增的音频帧进行计算，实现了惊人的单句转录锁定仅需24毫秒。这一突破性进展，有效解决了传统流式模型在处理长语音时普遍存在的累积延迟问题，将语音交互的即时性推向了新的高度。

该模型提供了多档延迟模式，包括80毫秒、160毫秒、560毫秒以及1.12秒，用户可根据实际应用场景的需求，灵活调整延迟设置，且无需进行模型重新训练。这使其能够轻松驾驭游戏语音、实时翻译、会议记录等多种对时效性有严格要求的场景。更值得一提的是，Nemotron Speech ASR 在显著提升吞吐量的同时，大幅降低了运行成本，将端到端延迟控制在500毫秒以内，并原生支持标点符号和大小写的识别，极大地提升了输出文本的可用性与可读性。

Nemotron Speech ASR 的核心功能亮点

极致低延迟的实时语音捕捉：专为追求极致实时性的流式场景而设计，单句转录锁定时间缩短至24毫秒，其响应速度几乎与人脑的神经反应速度相当，完美契合对即时语音交互有着严苛要求的应用。
智能缓存感知架构：通过高效缓存已处理的语音特征，新输入的音频帧只需计算新增部分，避免了冗余计算，从而从根本上消除了长语音识别中的延迟累积现象。
灵活多样的延迟模式选择：内置80ms、160ms、560ms、1.12s等多种延迟配置，用户可根据特定应用的需求，在推理阶段即刻切换，无需重新训练模型，满足从追求速度到兼顾精度的多样化需求。
卓越的吞吐量与成本效益：与同类流式模型相比，Nemotron Speech ASR 展现出更高的处理能力，在相同的GPU内存限制下，能够并行处理更多的语音流，显著降低了在生产环境中部署的运营成本。
无缝的端到端低延迟体验：从音频输入到文本输出的整个流程，均经过精心优化，确保端到端的延迟始终保持在500毫秒以下，为用户带来流畅自然的语音交互感受。
内建的标点与大小写支持：模型在识别过程中即可原生输出带标点符号和正确大小写的文本，极大地增强了识别结果的准确性和实用性。
构建完整语音智能体的基石：Nemotron Speech ASR 并非存在的模型，而是英伟达完整语音智能体解决方案的重要组成部分，可与Nemotron 3 Nano 30B（大型语言模型）和Magpie（文本转语音模型）协同工作，为打造真正的语音智能助手提供全方位的技术支撑。

Nemotron Speech ASR 的技术精髓解析

缓存驱动的计算优化：通过维护编码器的状态缓存，模型能够存储已处理的音频特征。当新的音频帧到来时，直接利用缓存中的激活值，仅对新增部分进行计算，从而实现前所未有的低延迟实时处理。
高效的增量式计算流程：与传统模型不同，Nemotron Speech ASR 避免了对历史数据的重复编码，而是基于缓存的激活值进行增量计算。这种机制是其能够有效解决长语音识别累积延迟问题的关键。
推理时动态延迟调整：模型支持通过参数（如att_context_size）在推理阶段动态调整上下文感知能力，在识别准确率和延迟之间找到最佳平衡点。
优化的并行处理能力：其架构设计经过深度优化，能够在有限的GPU内存资源下，高效地并行处理多路语音流，大幅提升了系统的吞吐量。
全链路的端到端延迟控制：从音频信号的输入到最终文本的输出，整个处理流程都经过精细调优，确保端到端延迟控制在500毫秒以内，满足实时语音交互的严苛要求。