AIGC动态欢迎阅读
原标题:华为王云鹤:对“小”的大模型的优化重新思考
关键字:模型,参数,小米,侵权,华为
文章来源:算法邦
内容字数:6615字
内容摘要:
700个开发硬件免费申请➕现金大奖!生成式 AI、机器人 AI、PC AI 三大赛道!AMD Pervasive AI 开发者挑战赛报名火热进行中,扫码了解详情并报名~导读作者为华为诺亚方舟实验室高级研究员王云鹤。本文是对如何优化“小”的大模型的总结思考,涉及分词器、模型架构、参数继承和多轮训练四个方面。
原文地址:
https://zhuanlan.zhihu.com/p/681614203
本文只做学术分享,如有侵权,联系删文。盘古π-1.5B Pro以及盘古π-1B Pro的更新,附论文及部分代码。一直以来,给部分同学的感觉是我对整个大模型(大模型实为大的语言模型,LLM,后面不赘述)持悲观甚至反感的态度。
反感其实谈不上,只是偶尔觉得这个领域有一点“脏”(没有清晰的训练集、测试集、验证集),但自己也都在盘古大模型的项目中,也用大模型做了一些工作。但是,悲观确实还是悲观的,对我个人来说,核心矛盾还是在于,大模型就是大的精度好的语言模型,本质上没带来什么特别多的能让用户买单的新特性。
2023年下半年,大家发现云上的AI助手会带来很多问题,例如成本、隐私、时延等。所以一直在让团队成
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,连接青年AI学者,讲解研究成果,分享系统思考。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...