网络架构如何支持超万卡的大规模 AI 训练?

AIGC动态7个月前发布 AI前线
9 0 0

网络架构如何支持超万卡的大规模 AI 训练?

AIGC动态欢迎阅读

原标题:网络架构如何支持超万卡的大规模 AI 训练?
关键字:网络,集群,模型,架构,阿里
文章来源:AI前线
内容字数:0字

内容摘要:


演讲嘉宾 | 席永青
AI 训练场景的算力 Scaling 核心是网络,依赖于大规模、高性能的数据中心网络集群来实现算力的规模扩展,为此,阿里云设计了 HPN7.0 架构系统,基于 Ethernet 来构建超大规模、极致性能的网络互联。
本文整理自阿里巴巴资深网络架构师席永青在 AICon 2024 北京《大模型基础设施构建》专题的演讲“网络驱动大规模 AI 训练 – 阿里云可预期网络 HPN 7.0 架构”,内容经 InfoQ 进行不改变原意的编辑。在 6 月 14-15 日即将举办的 ArchSummit 深圳上,InfoQ 策划了《智算平台建设与应用实践》和《大模型基础框架》专题,将邀请业内专家进一步深入分享企业在大模型基础层面的建设实践。目前,大会议程已全部上线,感兴趣的同学请锁定大会官网站:https://archsummit.infoq.cn/2024/shenzhen/schedule
大家好,我是席永青,来自阿里云。阿里云的 PAI 灵骏想必大家都熟悉,已经是 AI 领域的标杆算力平台,服务了众多知名的 AI 大模型公司。我有幸负责灵骏智算集群网络架构设计。今天非常高兴


原文链接:网络架构如何支持超万卡的大规模 AI 训练?

联系作者

文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...