零一万物面向万卡集群的AI基础设施建设

AIGC动态3个月前发布 智猩猩AGI
16 0 0

零一万物面向万卡集群的AI基础设施建设

AIGC动态欢迎阅读

原标题:零一万物面向万卡集群的AI基础设施建设
关键字:模型,华为,方案,网络,技术
文章来源:智猩猩AGI
内容字数:0字

内容摘要:


大模型时代最火AI芯片峰会来啦!!9月6-7日,由芯东西联合主办的2024全球AI芯片峰会将在北京举行。峰会设有数据中心AI芯片、智算集群等7大板块。目前,AMD人工智能事业部高级总监王宏强,云天励飞副总裁、芯片业务线总经理李爱军,清华大学交叉信息研究院助理教授、北极雄芯创始人马恺声等25+嘉宾/企业已确认出席并演讲。扫码报名~摘要
分享了构建 AI 2.0时代的万卡集群的经验和成果。包括大模型训练进展、主网与存储方案、调度监控、产品设计和展示等方面。
存在问题
基础设施建设:需要构建支撑大模型训练的基础设施,高功率需求 、冷却效率、计算存储通信网络等高效率。
电力能源:GPU 服务器高功率需求与传统数据中心电力供应不匹配。
大模型训练需求:支持千亿到万亿AI 模型训练加速。
网络拓扑设计优化:需要优化网络以降低延迟并提高效率。
网络协议选型:高性能计算需高吞吐、低延迟网络
存储解决方案:需要高性能和高可用性的存储系统。
调度系统智能化:需要无人值守的智能调度系统。
可观测性:需要对集群状态进行实时监控和故障预测。
解决方案
基础设施:构建了世界一流的 基础设施,包括选址、电力供应、数


原文链接:零一万物面向万卡集群的AI基础设施建设

联系作者

文章来源:智猩猩AGI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...