FP8 低精度训练:Transformer Engine 简析

FP8 低精度训练:Transformer Engine 简析

AIGC动态欢迎阅读

原标题:FP8 低精度训练:Transformer Engine 简析
关键字:精度,模型,数据,数值,框架
文章来源:智猩猩AGI
内容字数:0字

内容摘要:


大模型时代最火AI芯片峰会来啦!!9月6-7日,由智猩猩联合主办的2024全球AI芯片峰会将在北京举行。峰会设有数据中心AI芯片、智算集群技术论坛等7大板块。目前,清华大学教授、集成电路学院副院长尹首一 ,AMD人工智能事业部高级总监王宏强,高通AI产品技术中国区负责人万卫星,摩尔线程高级产品总监付海良波等30+位嘉宾已确认参会。扫码报名~原文:https://zhuanlan.zhihu.com/p/700874387
01背景介绍业界广泛采用 FP16、BF16 混合精度(AMP)进行模型训练。AMP 能在下游任务不掉点的前提下提升训练效率、减少显存等资源占用,如今也常用于大模型预训练、微调等任务。
Pytorch 1.6 版本后原生支持 FP16、BF16 精度的 AMP 训练(torch.amp),过往 AMP 功能由 NVIDIA APEX 库实现。
NVIDIA GPU 自 Hopper 架构起支持 FP8 精度的 Tensor Core 计算,相比于 FP16/BF16 精度,FP8 具有如下优势:
更强的计算性能
对比 A100 BF16 精度训练,H100 FP8 训


原文链接:FP8 低精度训练:Transformer Engine 简析

联系作者

文章来源:智猩猩AGI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...