AIGC动态欢迎阅读
原标题:B站轻量级大语言模型index-1.9B深入解析
关键字:数据,模型,阶段,效果,指令
文章来源:智猩猩AGI
内容字数:0字
内容摘要:
直播预告 |「智猩猩AIGC视频生成公开课 魔珐科技专场」正式开讲啦~8月13日晚7点开讲,魔珐科技市场负责人李韵将直播讲解《AIGC时代,企业级视频生成的挑战与实践》,内容涵盖一站式3D视频创作平台与行业应用、从0到1,生成一个视频产品演示,欢迎扫名~bilibili发布的Index-1.9B包含:
Index-1.9B base:在2.8T语料训练的基模型
Index-1.9B pure:部分数据和base不同,其他相同
Index-1.9B chat:基于base进行SFT和DPO后的模型
Index-1.9B character:在chat的基础上用RAG+fewshots提供角色扮演的能力
下面看下细节。
01模型(1)模型深度
目前业界普遍的认知是模型深度比宽度对效果的影响更大(相同参数下)。对比层数分别为36层和9层,总参数都为1.01B的模型,结果如下图,36层模型(base)效果确实更好。需要注意的是,相同模型参数量下,层数更多的模型会有更多的activation(与L * hidden size成正比),因此会需要更多显存。
(2)Norm-Head
模型不同层
联系作者
文章来源:智猩猩AGI
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...