FP8 低精度训练：Transformer Engine 简析

AIGC动态欢迎阅读

原标题：FP8 低精度训练：Transformer Engine 简析
关键字：精度,模型,数据,数值,框架
文章来源：智猩猩AGI
内容字数：0字

内容摘要：

大模型时代最火AI芯片峰会来啦！！9月6-7日，由智猩猩联合主办的2024全球AI芯片峰会将在北京举行。峰会设有数据中心AI芯片、智算集群技术论坛等7大板块。目前，清华大学教授、集成电路学院副院长尹首一，AMD人工智能事业部高级总监王宏强，高通AI产品技术中国区负责人万卫星，摩尔线程高级产品总监付海良波等30+位嘉宾已确认参会。扫名～原文：https://zhuanlan.zhihu.com/p/700874387
01背景介绍业界广泛采用 FP16、BF16 混合精度（AMP）进行模型训练。AMP 能在下游任务不掉点的前提下提升训练效率、减少显存等资源占用，如今也常用于大模型预训练、微调等任务。
Pytorch 1.6 版本后原生支持 FP16、BF16 精度的 AMP 训练（torch.amp），过往 AMP 功能由 NVIDIA APEX 库实现。
NVIDIA GPU 自 Hopper 架构起支持 FP8 精度的 Tensor Core 计算，相比于 FP16/BF16 精度，FP8 具有如下优势：
更强的计算性能
对比 A100 BF16 精度训练，H100 FP8 训

原文链接：FP8 低精度训练：Transformer Engine 简析