LLM训练通信量减少10000倍！全新分布式优化器，整合世间算力训练强大AI

AIGC动态欢迎阅读

原标题：LLM训练通信量减少10000倍！全新分布式优化器，整合世间算力训练强大AI
关键字：报告,模型,数据,通信,分布式
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：alan
【新智元导读】近日，Nous Research宣布了一项重大突破，通过使用与架构和网络无关的分布式优化器，研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍！如果可以使用世界上所有的算力来训练AI模型，会怎么样？
近日，凭借发布了开源的Hermes 3（基于Llama 3.1）而引起广泛关注的Nous Research，再次宣布了一项重大突破——DisTrO（分布式互联网训练）。
通过使用与架构和网络无关的分布式优化器，研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍！
初步技术报告：https://github.com/NousResearch/DisTrO/
在如此夸张的改进之下，大模型训练的重要成本和瓶颈——带宽，也就不再是问题。
使用DisTrO的方法，你可以将训练负载分布到互联网上，而整个网络世界也就成为了一个巨大的异构的AI服务器集群。
——任何有相关算力的设备都可以参与到训练过程之中。
实验证明，本文的方法基本不会导致模型性能下降，同时DisTrO-AdamW在收敛速度方面，也与标准的AdamW+All

原文链接：LLM训练通信量减少10000倍！全新分布式优化器，整合世间算力训练强大AI