从机到700亿参数大模型，这里有份教程，还有现成可用的脚本

AIGC动态2年前 (2024)发布机器之心

从裸机到700亿参数大模型，这里有份教程，还有现成可用的脚本

AIGC动态欢迎阅读

原标题：从机到700亿参数大模型，这里有份教程，还有现成可用的脚本
关键字：机器,问题,错误,主机,集群
文章来源：机器之心
内容字数：0字

内容摘要：

选自imbue.com
作者：Imbue 团队
机器之心编译
编辑：panda我们知道 LLM 是在大规模计算机集群上使用海量数据训练得到的，机器之心曾介绍过不少用于辅助和改进 LLM 训练流程的方法和技术。而今天，我们要分享的是一篇深入技术底层的文章，介绍如何将一堆连操作系统也没有的「机」变成用于训练 LLM 的计算机集群。
这篇文章来自于 AI 初创公司 Imbue，该公司致力于通过理解机器的思维方式来实现通用智能。
当然，将一堆连操作系统也没有的「机」变成用于训练 LLM 的计算机集群并不是一个轻松的过程，充满了探索和试错，但 Imbue 最终成功训练了一个 700 亿参数的 LLM，并在此过程中积累了许多有用的经验。
本文将深入介绍该团队构建自己的 LLM 训练基础设施的全过程，并会分享他们为方便监控、检查和纠错而编写的诸多工具和脚本。
如果你有心构建自己的 LLM 训练基础设施或好奇 LLM 是如何炼成的，那么这篇文章值得你阅读和收藏。
以下是 Imbue 团队文章原文。
引言
我们这个由研究者和工程师组成的小团队用了几个月时间在自己的基础设施上从头开始训练了一个 700

原文链接：从机到700亿参数大模型，这里有份教程，还有现成可用的脚本