llama2 模型精调总结

AIGC动态9个月前发布 算法邦
22 0 0

llama2 模型精调总结

AIGC动态欢迎阅读

原标题:llama2 模型精调总结
关键字:模型,报告,知乎,侵权,腾讯
文章来源:算法邦
内容字数:5100字

内容摘要:


智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里云通义实验室通义千问负责人周畅,潞晨科技创始人尤洋,生数科技CEO唐家渝,优必选研究院执行院长焦继超,科大讯飞人形机器人首席科学家季超,DeepWisdom合伙人徐宗泽,腾讯研究科学家张驰,前Meta首席工程负责人胡鲁辉等首批嘉宾已确认带来演讲和报告,欢迎报名。导读原文来自知乎,作者为王二叔,本文是作者在llama2-13B-chat模型、llama2-70B-chat模型上做精调的一些随笔总结经验。
原文链接:https://zhuanlan.zhihu.com/p/680873898
本文只做学术/技术分享,如有侵权,联系删文。01前言距离llama2模型发布也有半年多的时间了,看到的一些训练总结不是很多,题主大概模型刚出来就在13B和70B的模型上做精调,随笔总结一些经验吧,大家仅供参考,也欢迎随时讨论。
02全量精调和loralora在题主看来只是显存不够的一种妥协方案,因为增量训练注定不会改变模型本身的底层权重,所以对模型的权重偏移影响比较少,在某些场景可能比较好用,但在很多场景全量精调肯定是更好


原文链接:llama2 模型精调总结

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,连接AI新青年,讲解研究成果,分享系统思考。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...