焱融科技张文涛：将大模型训练效率提升40%！详解多云架构下高效存储策略丨GenAICon 2024

AIGC动态2年前 (2024)发布智东西

AIGC动态欢迎阅读

原标题：焱融科技张文涛：将大模型训练效率提升40%！详解多云架构下高效存储策略丨GenAICon 2024
关键字：数据,模型,集群,解读,报告
文章来源：智东西
内容字数：11390字

内容摘要：

破题大模型算力荒，如何打造高性能存储底盘？
2024中国生成式AI大会于4月18-19日在北京举行，在大会第二天的主会场AI Infra专场上，焱融科技CTO张文涛以《多云环境下大模型训练和推理的高效存储》为题发表演讲。
随着大模型训练和推理需要的算力越来越高，单个数据中心已经无法满足大模型训练所需要的算力要求，需要多数据中心进行训练和推理。
多个数据中心存在多份数据拷贝的成本越来越大，如何在保证性能的前提下，让数据按需跟随算力进行流转，成为大模型厂商和存储厂商要解决的难题。从数据加载、模型加载到Checkpoint保存等过程中，存在大量的读写请求、元数据访问和内存拷贝等操作。在此背景下，张文涛解读了存储对大模型训练和推理的重要性和一些可行方法。
对于多模态大模型，高性能存储对训练的提升效果更好，效率可提升20-40%。针对训练推理，焱融科技推出了多云存储解决方案。基于统一的数据湖底座，通过数据编排将数据按需加载到数据中心，并异步将新增的模型数据推到数据湖。数据加载支持对接OSS、COS、BOS等各大主流对象存储平台。
以下为张文涛的演讲实录：
炎融科技专注于高性能分布式文件存储，是英

原文链接：焱融科技张文涛：将大模型训练效率提升40%！详解多云架构下高效存储策略丨GenAICon 2024