Nemotron 3 Super

Nemotron 3 Super – 英伟达专为智能体推理的开源大模型

英伟达最新发布的Nemotron 3 Super，一款拥有1200亿参数的开源人工智能模型，正以前所未有的方式重塑智能体应用的可能性。这款模型集成了Mamba-MoE混合架构，并进行了专门的优化，使其在处理需要超长上下文的任务时表现卓越。其100万token的超长上下文支持，配合高达3倍的推理速度和5倍的吞吐量提升，为复杂的智能体交互和大规模部署奠定了坚实基础。

Nemotron 3 Super的独特之处

Nemotron 3 Super不仅是一个强大的AI模型，更是一款为智能体设计的性工具。它拥有1200亿的庞大参数量，并采用了创新的Mamba-MoE混合架构，使其在智能体任务执行方面展现出非凡的能力。该模型支持高达100万token的超长上下文窗口，这意味着智能体能够在一个连续的工作流中保持对复杂信息的完整记忆，有效避免了在多步任务现目标漂移的问题。在OpenClaw等智能体基准测试中，Nemotron 3 Super取得了令人瞩目的85.6%的任务成功率，其性能表现已能比肩如Claude Opus 4.6等顶尖的闭源模型。此外，英伟达还同步开源了超过10万亿token的训练数据集、完整的开发方以及15个强化学习环境，为企业级多智能体系统的构建提供了全方位的支持。

Nemotron 3 Super的核心优势

长效记忆能力：凭借100万token的超长上下文窗口，Nemotron 3 Super能够让智能体在执行复杂且多步骤的任务时，维持完整的工作流程状态，有效防止目标偏离。
卓越的智能体任务表现：在OpenClaw等智能体基准测试中，该模型展现出85.6%的任务成功率，其性能水平已非常接近Claude Opus 4.6等业界领先的闭源模型。
迅捷的推理速度：通过先进的多Token预测技术实现原生投机解码，Nemotron 3 Super的推理速度提升了3倍，能够满足实时交互场景的严苛要求。
高效的吞吐量服务：与前代模型相比，Nemotron 3 Super的吞吐量实现了5倍的飞跃，为大规模并发智能体部署提供了可能，显著降低了多智能体应用的服务成本。
精准的工具调用：该模型能够精准地在庞大的函数库中进行导航和操作，有效避免了在网络安全等高风险、关键环境中发生执行失误。
赋能代码智能体开发：Nemotron 3 Super能够一次性加载整个代码库至上下文，实现端到端的代码生成、漏洞修复以及自动化调试。
高效的财务分析处理：通过一次性加载数千页的财务报告至内存，该模型省去了在冗长对话中反复重新推理的麻烦，极大地提升了工作效率。

Nemotron 3 Super的技术基石

Mamba-MoE混合架构：该模型采用了88层网络结构，周期性地交替布置Mamba-2层和Transformer注意力层。Mamba-2层以其线性时间复杂度的序列建模效率著称，而少量Transformer层则充当全局锚点，负责长距离信息的跨位置路由和高精度推理。这种设计在保持强大建模能力的同时，显著提高了推理吞吐量。
LatentMoE隐式混合专家架构：这是英伟达首创的一种新型MoE设计。在进行路由和专家计算之前，模型会将Token从隐藏维度投影到一个更小的潜在维度。路由和专家计算在这个压缩空间内进行，使得参数加载和通信量直接减少数倍。节省下来的资源被用于增加专家总数和激活专家数，实现了“以一个专家的成本激活四个专家”的效果，在几乎不变的推理成本下提升了模型准确率。
多Token预测加速：Nemotron 3 Super在每个位置能够同时预测未来多个Token。这不仅促使模型学习多步因果关系和长远文本结构，从而提升生成质量，更关键的是实现了原生投机解码。辅助预测头充当内置草稿模型，快速生成候选序列，而主模型只需一次前向传播即可完成验证，大幅降低了生成延迟，且额外开销极小。
NVFP4低精度预训练：整个模型在Blackwell平台上使用NVFP4精度进行预训练。这种4位浮点格式极大地降低了显存需求。在零准确率损失的前提下，其推理速度比Hopper架构的FP8快了4倍，充分证明了大规模低精度训练的可行性和高效性。

Nemotron 3 Super的获取途径

项目官方网站：https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/
HuggingFace模型库：https://huggingface.co/collections/nvidia/nvidia-nemotron-v3
技术研究报告：https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

Nemotron 3 Super的应用领域

智能体平台的驱动引擎：作为OpenClaw等智能体平台的“最强开源模型”，Nemotron 3 Super能够驱动多智能体协同完成复杂且长周期的任务，有效解决上下文和思考税两大瓶颈。
企业级软件开发的利器：赋能CodeRabbit、Factory、Greptile等公司的软件开发智能体，实现代码库级别的端到端生成、调试与漏洞修复，在SWE-Bench测试中取得了60.47%的优异成绩。
深度研究分析的加速器：驱动NVIDIA AI-Q研究型智能体，在DeepResearch Bench排行榜上荣获桂冠，支持跨越海量文档的多步推理与信息整合。
网络安全运维的守护者：在自主安全编排等高风险环境中，通过高精度工具调用，该模型能够可靠地导航庞大的函数库，有效防止关键执行错误。
财务金融分析的革新者：一次性加载数千页财务报告至内存，可以直接进行深度分析，无需耗费时间在反复的重新推理上，从而大幅提升投研效率。

阅读原文