个人从零预训练1B LLM心路历程

AIGC动态2年前 (2024)发布智猩猩GenAI

个人从零预训练1B LLM心路历程

AIGC动态欢迎阅读

原标题：个人从零预训练1B LLM心路历程
关键字：数据,模型,腾讯,报告,笔者
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

大会预告12月5日-6日，2024中国生成式AI大会（上海站）将举办。上海科大助理教授、博导顾家远，腾讯优图实验室天衍研究中心负责人吴贤，银河通用机器人合伙人张直政，趣丸科技副总裁贾朔，旷视研究院高级研究员李华东已确认参会，将围绕大模型、具身智能、AI视频生成带来分享，欢迎报名。01前言项目开始于2024年3月初，当时朋友搞到了一台不知道能用多久的A100。这么棒的机器放着也是浪费，就琢磨着尝试从零训练一个小型号的LLM。其实在当时就有不少些这种“从零预训练LLM”的开源项目了，但是大多训练的数据量或者是模型都很小（几块4090+几十G数据就能跑起来），并没有暴露出一些工程上的问题，训练细节也没有分享的特别清晰。因此，我在制定训练LLM计划的时候有两个目标：模型参数量和数据量不能特别的demo：参数量上B，数据量上T。
尽量详细的分享训练过程中的各种细节：让没有资源训练的同学能够了解到他们没有机会从实践得到的知识；让有训练资源的同学在复刻过程中少走弯路，以博客形式分享。
参考了TinyLlama项目的训练时间，估计了一下大概可以使用T级别的数据训练个1B大小的LLM（优先保证训练的数据

原文链接：个人从零预训练1B LLM心路历程