华为王云鹤：对“小”的大模型的优化重新思考

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：华为王云鹤：对“小”的大模型的优化重新思考
关键字：模型,参数,小米,侵权,华为
文章来源：算法邦
内容字数：6615字

内容摘要：

700个开发硬件免费申请➕现金大奖！生成式 AI、机器人 AI、PC AI 三大赛道！AMD Pervasive AI 开发者挑战赛报名火热进行中，扫码了解详情并报名～导读作者为华为诺亚方舟实验室高级研究员王云鹤。本文是对如何优化“小”的大模型的总结思考，涉及分词器、模型架构、参数继承和多轮训练四个方面。
原文地址：
https://zhuanlan.zhihu.com/p/681614203
本文只做学术分享，如有侵权，联系删文。盘古π-1.5B Pro以及盘古π-1B Pro的更新，附论文及部分代码。一直以来，给部分同学的感觉是我对整个大模型（大模型实为大的语言模型，LLM，后面不赘述）持悲观甚至反感的态度。
反感其实谈不上，只是偶尔觉得这个领域有一点“脏”（没有清晰的训练集、测试集、验证集），但自己也都在盘古大模型的项目中，也用大模型做了一些工作。但是，悲观确实还是悲观的，对我个人来说，核心矛盾还是在于，大模型就是大的精度好的语言模型，本质上没带来什么特别多的能让用户买单的新特性。
2023年下半年，大家发现云上的AI助手会带来很多问题，例如成本、隐私、时延等。所以一直在让团队成

原文链接：华为王云鹤：对“小”的大模型的优化重新思考