千卡规模训练算力利用率达 60%,蚂蚁开源分布式训练加速扩展库 ATorch

千卡规模训练算力利用率达 60%,蚂蚁开源分布式训练加速扩展库 ATorch

AIGC动态欢迎阅读

原标题:千卡规模训练算力利用率达 60%,蚂蚁开源分布式训练加速扩展库 ATorch
关键字:模型,分布式,策略,高效,参数
文章来源:AI科技评论
内容字数:4083字

内容摘要:


近日,蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch。ATorch可针对不同模型和硬件资源,实现深度学习自动资源动态优化和分布式训练稳定性提升,可帮助优化深度学习的智能性,解决大模型训练的提效问题。据了解,ATorch大模型训练算力利用率可达60%,对于千亿模型千卡级训练提效非常友好,相当于为跑车装上了强劲的引擎。
Meta开源的 PyTorch和谷歌开源的TensorFlow,是最受开发者欢迎的两大深度学习框架。凭借其简单易用、功能强大、用途广泛等特点,开发者和研究人员可以轻松的构建和训练模型。随着生成式大模型的爆发,模型训练的数据集和参数规模成指数级增长。要带动如此庞然大物,并且满足模型的快速迭代,分布式训练就成为了解题之道。本次蚂蚁开源的ATorch针对于大模型训练场景,提供了基于 PyTorch 的高性能解决方案。1为跑车装上强劲引擎2023年上半年,蚂蚁集团开源了DLRover项目,这是基于云原生技术打造的智能分布式深度学习系统,相当于为一辆跑车提供了自动驾驶系统。那么如何让跑车跑得更快呢?蚂蚁开发了基于PyTorch的分布式训练加速扩展库ATorch,并且集成到DL


原文链接:千卡规模训练算力利用率达 60%,蚂蚁开源分布式训练加速扩展库 ATorch

联系作者

文章来源:AI科技评论
作者微信:aitechtalk
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...