英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑

AIGC动态8个月前发布 新智元
42 0 0

英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑

AIGC动态欢迎阅读

原标题:英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑
关键字:模型,数据,性能,研究人员,任务
文章来源:新智元
内容字数:5956字

内容摘要:


新智元报道编辑:桃子
【新智元导读】许久未更新大模型的英伟达推出了150亿参数的Nemotron-4,目标是打造一个能在单个A100/H100可跑的通用大模型。最近,英伟达团队推出了全新的模型Nemotron-4,150亿参数,在8T token上完成了训练。
值得一提的是,Nemotron-4在英语、多语言和编码任务方面令人印象深刻。
论文地址:https://arxiv.org/abs/2402.16819
在7个评估基准上,与同等参数规模的模型相比,Nemotron-4 15B表现出色。
甚至,其性能超过了4倍大的模型,以及专用于多语言任务的模型。
如今LLM已经非常多了,英伟达新发布的语言模型,有何不同?
打造最强通用LLM,单个A100/H100可跑最近发表的LLM研究受到了Chinchilla模型「缩放定律」的启发——给定固定计算预算,数据和模型大小一同优化。
而过去,研究主要针对模型大小进行缩放。
研究表明,给定两个数据分布类似的IsoFLOP GPT模型,一个是在1.4万亿token上的65亿参数模型,另一个是3000亿token上的2800亿参数模型。
显然,65B


原文链接:英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...