字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

AIGC动态10个月前发布 量子位
18 0 0

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

AIGC动态欢迎阅读

原标题:字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM
关键字:腾讯,字节跳动,模型,集群,字节
文章来源:量子位
内容字数:4070字

内容摘要:


鱼羊 发自 凹非寺量子位 | 公众号 QbitAI随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。
来自字节和北大的一篇新论文在此时吸引关注:
文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。
具体来说,字节提出了一个名为MegaScale的生产系统,旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。
在12288块GPU上训练1750亿参数大语言模型时,MegaScale实现了55.2%的算力利用率(MFU),是英伟达Megatron-LM的1.34倍。
论文还透露,截止2023年9月,字节已建立起超过1万张卡的Ampere架构GPU(A100/A800)集群,目前正在建设大规模Hopper架构(H100/H800)集群。
适用于万卡集群的生产系统大模型时代,GPU的重要性已无需赘述。
但大模型的训练,并不是把卡的数量拉满就能直接开干的——当GPU集群的规模来到“万”字级别,如何实现高效、稳定的训练,本身就是一个颇具挑战的工程问题。
第一重挑战:效率。
训练大语言模型并非简单的并行任务,需要在多个GPU之间分布模型,并且这些


原文链接:字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...