千卡规模训练算力利用率达 60%，蚂蚁开源分布式训练加速扩展库 ATorch

AIGC动态2年前 (2024)发布 AI科技评论

AIGC动态欢迎阅读

原标题：千卡规模训练算力利用率达 60%，蚂蚁开源分布式训练加速扩展库 ATorch
关键字：模型,分布式,策略,高效,参数
文章来源：AI科技评论
内容字数：4083字

内容摘要：

近日，蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch。ATorch可针对不同模型和硬件资源，实现深度学习自动资源动态优化和分布式训练稳定性提升，可帮助优化深度学习的智能性，解决大模型训练的提效问题。据了解，ATorch大模型训练算力利用率可达60%，对于千亿模型千卡级训练提效非常友好，相当于为跑车装上了强劲的引擎。
Meta开源的 PyTorch和谷歌开源的TensorFlow，是最受开发者欢迎的两大深度学习框架。凭借其简单易用、功能强大、用途广泛等特点，开发者和研究人员可以轻松的构建和训练模型。随着生成式大模型的爆发，模型训练的数据集和参数规模成指数级增长。要带动如此庞然大物，并且满足模型的快速迭代，分布式训练就成为了解题之道。本次蚂蚁开源的ATorch针对于大模型训练场景，提供了基于 PyTorch 的高性能解决方案。1为跑车装上强劲引擎2023年上半年，蚂蚁集团开源了DLRover项目，这是基于云原生技术打造的智能分布式深度学习系统，相当于为一辆跑车提供了自动驾驶系统。那么如何让跑车跑得更快呢？蚂蚁开发了基于PyTorch的分布式训练加速扩展库ATorch，并且集成到DL

原文链接：千卡规模训练算力利用率达 60%，蚂蚁开源分布式训练加速扩展库 ATorch