AIGC动态欢迎阅读
原标题:用FP8训练大模型有多香?微软:比BF16快64%,省42%内存
文章来源:机器之心
内容字数:8552字
内容摘要:机器之心报道编辑:Panda低精度训练是大模型训练中扩展模型大小,节约训练成本的最关键技术之一。相比于当前的 16 位和 32 位浮点混合精度训练,使用 FP8 8 位浮点混合精度训练能带来 2 倍的速度提升,节省 50% – 75% 的显存和 50% – 75% 的通信成本,而且英伟达最新一代卡皇 H100 自带良好的 FP8 硬件支持。但目前业界大模型训练框架对 FP8 训练的支持还非常有限。…
原文链接:点此阅读原文:用FP8训练大模型有多香?微软:比BF16快64%,省42%内存
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...