AIGC动态欢迎阅读
原标题:从头预训练一只超迷你 LLaMA 3
关键字:模型,数据,知乎,侵权,初始化
文章来源:算法邦
内容字数:29538字
内容摘要:
直播预告 | 5月23日晚7点,「智猩猩机器人新青年讲座」第6讲正式开讲,论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展与展望》,欢迎扫名~导读本文来自知乎,作者为Xode。本文只做学术/技术分享,如有侵权,联系删文。
本文通过使用 Hugging Face 的 API 和 Trainer 来从头预训练一个超迷你版本的 LLaMA 3 模型,并尝试复现微软的 TinyStories 项目,本文将帮助你更深入地理解语言模型的训练和迁移学习过程。
原文链接:https://zhuanlan.zhihu.com/p/695130168?这次打算用 Hugging Face 的 API 来写一份预训练大(小)模型的代码,也就是用 Trainer 来做预训练。由于只是想练习一下,因此打算选一个极小模型 + 小数据集。为了贴近主流,于是打算预训练一个 LLaMA 3——不过是超迷你版本,大小仅不到 20M。
想起来曾经看到过的微软的工作TinyStories,探索的是语言模型在多小的情况下还能流利地讲故事,工作非常直白、有趣,刚好也契合我的练习想法,于是这次来
原文链接:从头预训练一只超迷你 LLaMA 3
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,聚焦生成式AI,重点关注模型与应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...