从头预训练一只超迷你 LLaMA 3

AIGC动态1年前 (2024)发布算法邦

从头预训练一只超迷你 LLaMA 3

AIGC动态欢迎阅读

原标题：从头预训练一只超迷你 LLaMA 3
关键字：模型,数据,知乎,侵权,初始化
文章来源：算法邦
内容字数：29538字

内容摘要：

直播预告 | 5月23日晚7点，「智猩猩机器人新青年讲座」第6讲正式开讲，论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展与展望》，欢迎扫名~导读本文来自知乎，作者为Xode。本文只做学术/技术分享，如有侵权，联系删文。
本文通过使用 Hugging Face 的 API 和 Trainer 来从头预训练一个超迷你版本的 LLaMA 3 模型，并尝试复现微软的 TinyStories 项目，本文将帮助你更深入地理解语言模型的训练和迁移学习过程。
原文链接：https://zhuanlan.zhihu.com/p/695130168?这次打算用 Hugging Face 的 API 来写一份预训练大（小）模型的代码，也就是用 Trainer 来做预训练。由于只是想练习一下，因此打算选一个极小模型 + 小数据集。为了贴近主流，于是打算预训练一个 LLaMA 3——不过是超迷你版本，大小仅不到 20M。
想起来曾经看到过的微软的工作TinyStories，探索的是语言模型在多小的情况下还能流利地讲故事，工作非常直白、有趣，刚好也契合我的练习想法，于是这次来

原文链接：从头预训练一只超迷你 LLaMA 3