AIGC动态欢迎阅读
原标题:Meta、BAT、字节、零一万物万卡集群构建汇总
关键字:腾讯,交换机,集群,网络,解读
文章来源:智猩猩AGI
内容字数:0字
内容摘要:
生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯片专场、智算集群技术论坛等7大板块。目前,来自AMD、高通、Habana、壁仞科技、摩尔线程、苹芯科技、亿铸科技、凌川科技、云天励飞、中国移动研究院、北极雄芯等40+企业的嘉宾已确认演讲或讨论。扫码申请免费票或购票参会~01Meta RoCE网络Meta RoCE论文网络拓扑
基于RoCE的AI集群由24K个GPU组成,通过一个三层Clos网络连接。
在底层,每个机架有16个GPU分布在两台服务器上,并通过一个Minipack2 ToR交换机连接。
在中层,192个这样的机架通过集群交换机连接,形成一个拥有3,072个GPU的集群,具有完整的双切带宽,确保没有过订阅。
在顶层,同一数据中心大楼内的8个这样的集群通过聚合交换机连接,形成一个24K GPU的集群。
聚合层的网络连接没有保持完整的双切带宽,而是有一个1:7的过订阅比率。LLama3.1模型4D并行算法和训练作业调度程序都针对网络拓扑进行了优化,以达到最小化跨集群
联系作者
文章来源:智猩猩AGI
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...