大模型训练之序列并行双雄：DeepSpeed Ulysses和Ring-Attention

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：大模型训练之序列并行双雄：DeepSpeed Ulysses和Ring-Attention
关键字：腾讯,侵权,解读,知乎,切分
文章来源：算法邦
内容字数：0字

内容摘要：

导读本文来自知乎，作者为腾讯专家工程师方佳瑞。本文只做学术/技术分享，如有侵权，联系删文。
本文对比两种目前炙手可热长文本训练方法 DeepSpeed Ulysess [1] 和 Ring-Attention [2]。2023 年末，二者几乎同时出现，但是设计方法大相径庭，可谓一时瑜亮。
原文链接：https://zhuanlan.zhihu.com/p/689067888随着 Gemini 1M context length 和 Sora 出世，如何训练超长上下文的大模型引起了大家广泛关注。
本文对比两种目前炙手可热长文本训练方法 DeepSpeed Ulysess [1]和 Ring-Attention [2]。2023 年末，二者几乎同时出现，但是设计方法大相径庭，可谓一时瑜亮。
DeepSpeed Ulysess：切分 Q、K、V 序列维度，核心卖点保持通信复杂度低，和 GPU 数无关，和序列长度呈线性关系。
Ring-Attention：切分 Q、K、V 序列维度，核心卖点是通信和计算重叠。
下面，我用 FlashAttention Style 的示意图来对比二者区别。图中

原文链接：大模型训练之序列并行双雄：DeepSpeed Ulysses和Ring-Attention