英伟达最强通用大模型Nemotron-4登场！15B击败62B，目标单张A100/H100可跑

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：英伟达最强通用大模型Nemotron-4登场！15B击败62B，目标单张A100/H100可跑
关键字：模型,数据,性能,研究人员,任务
文章来源：新智元
内容字数：5956字

内容摘要：

新智元报道编辑：桃子
【新智元导读】许久未更新大模型的英伟达推出了150亿参数的Nemotron-4，目标是打造一个能在单个A100/H100可跑的通用大模型。最近，英伟达团队推出了全新的模型Nemotron-4，150亿参数，在8T token上完成了训练。
值得一提的是，Nemotron-4在英语、多语言和编码任务方面令人印象深刻。
论文地址：https://arxiv.org/abs/2402.16819
在7个评估基准上，与同等参数规模的模型相比，Nemotron-4 15B表现出色。
甚至，其性能超过了4倍大的模型，以及专用于多语言任务的模型。
如今LLM已经非常多了，英伟达新发布的语言模型，有何不同？
打造最强通用LLM，单个A100/H100可跑最近发表的LLM研究受到了Chinchilla模型「缩放定律」的启发——给定固定计算预算，数据和模型大小一同优化。
而过去，研究主要针对模型大小进行缩放。
研究表明，给定两个数据分布类似的IsoFLOP GPT模型，一个是在1.4万亿token上的65亿参数模型，另一个是3000亿token上的2800亿参数模型。
显然，65B

原文链接：英伟达最强通用大模型Nemotron-4登场！15B击败62B，目标单张A100/H100可跑