焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024

AIGC动态4个月前发布 智东西
8 0 0

焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024

AIGC动态欢迎阅读

原标题:焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024
关键字:数据,模型,集群,解读,报告
文章来源:智东西
内容字数:11390字

内容摘要:


破题大模型算力荒,如何打造高性能存储底盘?
2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AI Infra专场上,焱融科技CTO张文涛以《多云环境下大模型训练和推理的高效存储》为题发表演讲。
随着大模型训练和推理需要的算力越来越高,单个数据中心已经无法满足大模型训练所需要的算力要求,需要多数据中心进行训练和推理。
多个数据中心存在多份数据拷贝的成本越来越大,如何在保证性能的前提下,让数据按需跟随算力进行流转,成为大模型厂商和存储厂商要解决的难题。从数据加载、模型加载到Checkpoint保存等过程中,存在大量的读写请求、元数据访问和内存拷贝等操作。在此背景下,张文涛解读了存储对大模型训练和推理的重要性和一些可行方法。
对于多模态大模型,高性能存储对训练的提升效果更好,效率可提升20-40%。针对训练推理,焱融科技推出了多云存储解决方案。基于统一的数据湖底座,通过数据编排将数据按需加载到数据中心,并异步将新增的模型数据推到数据湖。数据加载支持对接OSS、COS、BOS等各大主流对象存储平台。
以下为张文涛的演讲实录:
炎融科技专注于高性能分布式文件存储,是英


原文链接:焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024

联系作者

文章来源:智东西
作者微信:zhidxcom
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...