阿里云：进一步压榨云上GPU资源，将大模型训推效率最大化丨GenAICon 2024

AIGC动态2年前 (2024)发布智东西

阿里云李鹏：进一步压榨云上GPU资源，将大模型训推效率最大化丨GenAICon 2024

AIGC动态欢迎阅读

原标题：阿里云：进一步压榨云上GPU资源，将大模型训推效率最大化丨GenAICon 2024
关键字：模型,显存,性能,场景,带宽
文章来源：智东西
内容字数：9149字

内容摘要：

阿里云用创新调优方法节省通信开销。
2024中国生成式AI大会于4月18-19日在北京举行，在大会第二天的主会场AI Infra专场上，阿里云高级技术专家、阿里云异构计算AI推理团队负责人以《AI基础设施的演进与挑战》为题发表演讲。
谈道，大模型的发展给计算体系结构带来了功耗墙、内存墙和通讯墙等多重挑战。其中，大模型训练层面，用户在模型装载、模型并行、通信等环节面临各种现实问题；在大模型推理层面，用户在显存、带宽、量化上面临性能瓶颈。
对于如何进一步释放云上性能？阿里云弹性计算为云上客户提供了ECS GPU DeepGPU增强工具包，帮助用户在云上高效地构建AI训练和AI推理基础设施，从而提高算力利用效率。
目前，阿里云ECS DeepGPU已经帮助众多客户实现性能的大幅提升。其中，LLM微调训练场景下性能最高可提升80%，Stable Difussion推理场景下性能最高可提升60%。
以下为的演讲实录：
今天我分享的是关于AI基础设施的演进和挑战。我讲的内容分三个部分：第一部分是关于生成式AI对云基础设施的挑战；第二部分是如何进一步压榨云上GPU资源的性能，保证训练和推

原文链接：阿里云：进一步压榨云上GPU资源，将大模型训推效率最大化丨GenAICon 2024