Yandex 开源 LLM 训练工具，可节省高达 20% 的 GPU 资源

AIGC动态1年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：Yandex 开源 LLM 训练工具，可节省高达 20% 的 GPU 资源
关键字：华为,小米,字节跳动,模型,通信
文章来源：AI前线
内容字数：0字

内容摘要：

2024 年 6 月 11 日，莫斯科跨国科技公司 Yandex 最近推出了一种用于训练大型语言模型 (LLM) 的开源方法 YaFSDP，用于增强 GPU 通信并减少 LLM 训练中的内存使用量。
LLM 训练依赖于组织成集群的大量 GPU，互连的图形处理器阵列可以执行训练具有数十亿个参数的模型所需的大量计算。在集群中的处理器之间分配计算需要不断通信，这通常会成为“瓶颈”，减慢训练过程并导致计算能力的低效使用。
为了克服这一瓶颈，Yandex 开发人员创建了 YaFSDP，来改善 GPU 通信并优化学习速度和性能的方法。
YaFSDP 的工作原理是消除 GPU 通信效率低下的问题，从而优化网络使用率并减少内存负载。它确保训练时只需要必要的处理器内存，并使 GPU 交互不间断，从而促进进一步的优化，例如最大限度地减少处理器通信时间。这可以显著提高性能和内存效率。
YaFSDP 是 FSDP 的增强版，在 LLM 训练中最耗通信的阶段（如预训练、对齐和微调）中，其表现优于 FSDP (Fully Sharded Data Parallel，全切片数据并行）方法。
官方表示，与 FSDP

原文链接：Yandex 开源 LLM 训练工具，可节省高达 20% 的 GPU 资源