标签:精度
Nvidia B100/B200/GB200 关键技术解读
对GTC keynote中关于AI基础设施的关键信息整理如下,分三个部分: 芯片 服务器 Superpod 芯片 1. GPU芯片 晶体管数: B200 GPU的晶体管数量是现有H100的两倍...
GPT-4级模型Grok开源可商用!卷底层大模型的公司危了
夕小瑶科技说 原创作者 | 醒醒上周,马斯克宣布 xAI 将开源 Grok。 刚刚,马斯克终于兑现诺言,xAI 宣布开源了 Grok-1 的模型权重和网络架构。 Grok-1 是一个...
Hugging Face:2023开源LLM大爆发,数据竞赛已开启!
新智元报道编辑:alan 【新智元导读】2023年的LLM开源社区都发生了什么?来自Hugging Face的研究员带你回顾并重新认识开源LLM2023年的大语言模型(LLM),让...
深度网络数据编码新突破,上交大SPARK登上计算机体系结构顶会
机器之心专栏 机器之心编辑部随着深度神经网络(DNNs)模型在规模和复杂性上的迅速增长,传统的神经网络处理方法面临着严峻的挑战。现有的神经网络压缩技术在...
计算需求降为1%! 清华大学首次提出「二值化光谱重建算法」,代码全开源|NeurIPS 2023
新智元报道编辑:LRS【新智元导读】相比全精度CNN,清华大学提出的二值化光谱重分布网络BiSRNet只需0.06%的存储空间和1%的计算代价,性能几乎持平。相比于常...
2023戈登贝尔奖揭晓:Frontier超算「量子级精度」材料模拟获奖
将 ScienceAI设为星标第一时间掌握新鲜的 AI for Science 资讯编辑 | 泽南、杜伟戈登贝尔奖(ACM Gordon Bell Prize)设立于 1987年,由美国计算机学会颁发,...
老黄H100再破纪录,4分钟训完GPT-3!全新「版」H20、L20和L2曝光,性能史诗级缩水
新智元报道编辑:桃子 好困【新智元导读】英伟达H100再次刷榜了,不到4分钟就训完GPT-3,比6月成绩提升3倍。另外,特供版H20、L20和L2性能全都爆出。H100再次...
用FP8训练大模型有多香?微软:比BF16快64%,省42%内存
机器之心报道编辑:Panda低精度训练是大模型训练中扩展模型大小,节约训练成本的最关键技术之一。相比于当前的 16 位和 32 位浮点混合精度训练,使用 FP8 8 ...
LLaMA微调显存需求减半,清华提出4比特优化器
机器之心专栏作者:李炳睿大模型的训练和微调对显存要求很高,优化器状态是显存主要开销之一。近日,清华大学朱军、陈键飞团队提出了用于神经网络训练的 4 比...
混合精度下位置编码竟有大坑,llama 等主流开源模型纷纷中招!百川智能给出修复方案
作者 | 百川智能 位置编码技术是一种能够让神经网络建模句子中 Token 位置信息的技术。在 Transformer 大行其道的时代,由于 Attention 结构无法建模每个 tok...