从0开始预训练1.4b中文大模型实践

AIGC动态9个月前发布 算法邦
71 0 0

从0开始预训练1.4b中文大模型实践

AIGC动态欢迎阅读

原标题:从0开始预训练1.4b中文大模型实践
关键字:模型,知乎,报告,数据,项目
文章来源:算法邦
内容字数:7795字

内容摘要:


智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场;分会场将进行具身智能技术研讨会、AI智能体技术研讨会和中国智算中心创新论坛。扫码报名,也可咨询。导读导读:原文来自知乎,作者为Lil2J,主要记录他对1.4b中文大模型的实践复现过程。
原文地址为https://zhuanlan.zhihu.com/p/68494633101简介这篇文章主要记录了我个人对1.4b中文大模型的实践复现过程。我选择了QWEN作为基座模型,并训练了一个参数量达到1.4b的预训练模型,其中涉及的训练token数量约为8b。在此过程中,我使用了两张a100 80g显卡,并耗费了大约100个小时的训练时间。尽管这个规模无法与其他大型模型相媲美,但我也取得了一定的效果。因此,我想将这次实践的过程和技术细节分享给大家,希望能够为感兴趣的朋友们提供一些参考和帮助。
这次项目:
https://github.com/jiahe7ay/MINI_LLM
因为实在不知道取什么名字,就取了个miniLLM了。
02动机我做这次


原文链接:从0开始预训练1.4b中文大模型实践

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,连接AI新青年,讲解研究成果,分享系统思考。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...