从0开始预训练1.4b中文大模型实践

AIGC动态2年前 (2024)发布算法邦

从0开始预训练1.4b中文大模型实践

AIGC动态欢迎阅读

原标题：从0开始预训练1.4b中文大模型实践
关键字：模型,知乎,报告,数据,项目
文章来源：算法邦
内容字数：7795字

内容摘要：

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场；分会场将进行具身智能技术研讨会、AI智能体技术研讨会和中国智算中心创新论坛。扫名，也可咨询。导读导读：原文来自知乎，作者为Lil2J，主要记录他对1.4b中文大模型的实践复现过程。
原文地址为https://zhuanlan.zhihu.com/p/68494633101简介这篇文章主要记录了我个人对1.4b中文大模型的实践复现过程。我选择了QWEN作为基座模型，并训练了一个参数量达到1.4b的预训练模型，其中涉及的训练token数量约为8b。在此过程中，我使用了两张a100 80g显卡，并耗费了大约100个小时的训练时间。尽管这个规模无法与其他大型模型相媲美，但我也取得了一定的效果。因此，我想将这次实践的过程和技术细节分享给大家，希望能够为感兴趣的朋友们提供一些参考和帮助。
这次项目：
https://github.com/jiahe7ay/MINI_LLM
因为实在不知道取什么名字，就取了个miniLLM了。
02动机我做这次

原文链接：从0开始预训练1.4b中文大模型实践