LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

AIGC动态欢迎阅读

原标题:LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI
关键字:报告,模型,数据,通信,分布式
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:alan
【新智元导读】近日,Nous Research宣布了一项重大突破,通过使用与架构和网络无关的分布式优化器,研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍!如果可以使用世界上所有的算力来训练AI模型,会怎么样?
近日,凭借发布了开源的Hermes 3(基于Llama 3.1)而引起广泛关注的Nous Research,再次宣布了一项重大突破——DisTrO(分布式互联网训练)。
通过使用与架构和网络无关的分布式优化器,研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍!
初步技术报告:https://github.com/NousResearch/DisTrO/
在如此夸张的改进之下,大模型训练的重要成本和瓶颈——带宽,也就不再是问题。
使用DisTrO的方法,你可以将训练负载分布到互联网上,而整个网络世界也就成为了一个巨大的异构的AI服务器集群。
——任何有相关算力的设备都可以参与到训练过程之中。
实验证明,本文的方法基本不会导致模型性能下降,同时DisTrO-AdamW在收敛速度方面,也与标准的AdamW+All


原文链接:LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...