AIGC动态欢迎阅读
内容摘要:
大会预告12月5日-6日,2024中国生成式AI大会(上海站)将举办。上海科大助理教授、博导顾家远,腾讯优图实验室天衍研究中心负责人吴贤,银河通用机器人合伙人张直政,趣丸科技副总裁贾朔,旷视研究院高级研究员李华东已确认参会,将围绕大模型、具身智能、AI视频生成带来分享,欢迎报名。01前言项目开始于2024年3月初,当时朋友搞到了一台不知道能用多久的A100。这么棒的机器放着也是浪费,就琢磨着尝试从零训练一个小型号的LLM。其实在当时就有不少些这种“从零预训练LLM”的开源项目了,但是大多训练的数据量或者是模型都很小(几块4090+几十G数据就能跑起来),并没有暴露出一些工程上的问题,训练细节也没有分享的特别清晰。因此,我在制定训练LLM计划的时候有两个目标:模型参数量和数据量不能特别的demo:参数量上B,数据量上T。
尽量详细的分享训练过程中的各种细节:让没有资源训练的同学能够了解到他们没有机会从实践得到的知识;让有训练资源的同学在复刻过程中少走弯路,以博客形式分享。
参考了TinyLlama项目的训练时间,估计了一下大概可以使用T级别的数据训练个1B大小的LLM(优先保证训练的数据
原文链接:个人从零预训练1B LLM心路历程
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...