从头预训练一只超迷你 LLaMA 3

AIGC动态6个月前发布 算法邦
20 0 0

从头预训练一只超迷你 LLaMA 3

AIGC动态欢迎阅读

原标题:从头预训练一只超迷你 LLaMA 3
关键字:模型,数据,知乎,侵权,初始化
文章来源:算法邦
内容字数:29538字

内容摘要:


直播预告 | 5月23日晚7点,「智猩猩机器人新青年讲座」第6讲正式开讲,论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展与展望》,欢迎扫码报名~导读本文来自知乎,作者为Xode。本文只做学术/技术分享,如有侵权,联系删文。
本文通过使用 Hugging Face 的 API 和 Trainer 来从头预训练一个超迷你版本的 LLaMA 3 模型,并尝试复现微软的 TinyStories 项目,本文将帮助你更深入地理解语言模型的训练和迁移学习过程。
原文链接:https://zhuanlan.zhihu.com/p/695130168?这次打算用 Hugging Face 的 API 来写一份预训练大(小)模型的代码,也就是用 Trainer 来做预训练。由于只是想练习一下,因此打算选一个极小模型 + 小数据集。为了贴近主流,于是打算预训练一个 LLaMA 3——不过是超迷你版本,大小仅不到 20M。
想起来曾经看到过的微软的工作TinyStories,探索的是语言模型在多小的情况下还能流利地讲故事,工作非常直白、有趣,刚好也契合我的练习想法,于是这次来


原文链接:从头预训练一只超迷你 LLaMA 3

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...