3FS – DeepSeek推出的高性能分布式文件系统
3FS(Fire-Flyer File System)是DeepSeek推出的一款高效分布式文件系统,专门为人工智能的训练和推理任务而设计。它利用现代SSD和RDMA网络技术,通过分离式架构整合数千个SSD的吞吐量和数百个存储节点的网络带宽,能够实现高达6.6 TiB/s的读取吞吐量。此外,3FS确保强一致性并提供通用文件接口,用户无需学习新的存储API。
3FS是什么
3FS(Fire-Flyer File System)是由DeepSeek开发的高性能分布式文件系统,专门针对人工智能的训练和推理任务进行优化。利用现代SSD和RDMA网络技术,3FS通过分离式架构聚合数千个SSD的高吞吐量以及数百个存储节点的网络带宽,提供高达6.6 TiB/s的读取速率。3FS不仅提供强一致性保障,还支持通用文件接口,用户无需学习新的存储API。其在大规模数据处理和推理优化方面表现卓越,在GraySort测试中实现了3.66 TiB/min的吞吐量,而KVCache的读取吞吐量可达40 GiB/s。
3FS的主要功能
- 卓越的数据访问性能:聚合数千个SSD的吞吐量,结合数百个存储节点的网络带宽,提供高达6.6 TiB/s的读取速率。支持大规模集群中的高吞吐量并行读写,极大优化AI训练和推理任务中的数据加载效率。
- 强一致性保障:通过链式复制与分配查询(CRAQ)技术确保数据的一致性,简化应用开发过程。
- 通用文件接口:提供无状态的元数据服务,支持事务性键值存储(如FoundationDB),用户无需学习新的存储API。
- 优化AI工作负载:
- 高效的数据准备:有效管理大量中间输出,支持层次化目录结构。
- 快速数据加载:支持跨计算节点的随机访问,无需预取或数据集的洗牌。
- 检查点支持:为大规模训练提供高吞吐量并行检查点功能。
- KVCache技术:为推理任务提供高吞吐量、大容量的缓存方案,优化推理效率。
- 高扩展性与灵活性:支持大规模集群部署,适用于从单节点到数千节点的多种应用场景。
3FS的技术原理
- 分离式架构:采用计算与存储分离的设计方式,集中管理存储资源,通过高速网络(如RDMA)实现高效的数据传输,简化资源管理。
- 链式复制与分配查询(CRAQ):通过CRAQ技术实现强一致性,利用链式复制确保多个副本间的数据一致性,并通过分配查询优化读取性能,降低延迟。
- 无状态元数据服务:3FS的无状态元数据服务基于事务性键值存储(如FoundationDB),提高系统可扩展性,降低元数据管理复杂度。
- Direct I/O与RDMA优化:采用Direct I/O直接访问SSD,避免使用文件缓存,减少CPU和内存开销,并利用RDMA技术提升数据传输效率。
- KVCache技术:在推理任务中,KVCache缓存关键中间结果,避免重复计算,显著提高推理效率。KVCache结合高吞吐量和大容量的优势,是DRAM缓存的经济替代方案。
- 数据局部性优化:通过优化数据布局和访问模式,降低数据传输延迟和带宽消耗,尤其在大规模分布式训练和推理任务中表现优异。
3FS的性能表现
- 大规模读取吞吐量:在一个由180个存储节点组成的集群中,每个存储节点配备2×200Gbps InfiniBand网卡和16个14TiB NVMe SSD。约500+个客户端节点用于读取压力测试,每个客户端节点配置1×200Gbps InfiniBand网卡。在训练作业的背景流量下,最终聚合读取吞吐量达到约6.6 TiB/s。
- GraySort性能测试:在GraySort基准测试中,3FS表现出色。GraySort是一项用于衡量分布式系统数据处理能力的大规模数据排序测试。测试集群包含25个存储节点(每个节点2个NUMA域,每个域1个存储服务,2×400Gbps NIC)和50个计算节点(每个节点192个物理核心,2.2 TiB内存,1×200Gbps NIC)。3FS成功在该测试中完成110.5 TiB数据的排序任务,耗时仅为30分钟14秒,平均吞吐量达到3.66 TiB/min。
- KVCache推理优化:KVCache是3FS为优化大型语言模型推理过程而设计的缓存技术,基于缓存解码层中的关键向量和值向量,避免重复计算。在KVCache的性能测试中,读取吞吐量峰值达到了40 GiB/s,显著提升了推理效率。KVCache的垃圾回收(GC)操作表现出高IOPS性能,确保缓存的高效管理和更新。
3FS的项目地址
- GitHub仓库:https://github.com/deepseek-ai/3FS
3FS的应用场景
- 大规模AI训练:高效支持海量数据的快速读写,提升训练效率。
- 分布式数据处理:优化数据加载和管理,支持随机访问,无需预取或数据集的洗牌。
- 推理优化:通过KVCache缓存中间结果,减少重复计算,提升推理效率。
- 检查点支持:提供高吞吐量的并行检查点功能,保障训练任务的稳定性和可恢复性。
- 多节点计算环境:无缝集成到大规模集群,支持灵活扩展,满足不同规模的AI应用需求。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...