一行代码训练成本再降30%，AI大模型混合精度训练再升级｜开源

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：一行代码训练成本再降30%，AI大模型混合精度训练再升级｜开源
关键字：报告,精度,模型,张量,矩阵
文章来源：量子位
内容字数：0字

内容摘要：

允中发自凹非寺量子位 | 公众号 QbitAIFP8通过其独特的数值表示方式，能够在保持一定精度的同时，在大模型训练中提高训练速度、节省内存占用，最终降低训练成本。
AI大模型开发系统Colossal-AI的混合精度训练再度升级，支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。
仅需一行代码，即可对主流LLM模型能够获得平均30%的加速效果，降低相应大模型开发成本，并保证训练收敛性。
无需引入额外的手写CUDA算子，避免了较长的AOT编译时间和复杂的编译环境配置。
开源地址：https://github.com/hpcaitech/ColossalAI
FP8混合精度训练低精度计算一直是GPU硬件发展趋势。
从最早的FP32，到目前通用的FP16/BF16，再到Hopper系列芯片(H100, H200, H800等）支持的FP8，低精度计算速度越来越快，所需的内存也越来越低，非常符合大模型时代对硬件的需求。
目前FP8混合精度训练影响训练结果的最大因素就是scaling方案，常见的方案有两种：
延迟scaling
实时scaling
延迟scaling采用

原文链接：一行代码训练成本再降30%，AI大模型混合精度训练再升级｜开源