如何解决大模型增量预训练中的灾难性遗忘?

AIGC动态10个月前发布 算法邦
38 0 0

如何解决大模型增量预训练中的灾难性遗忘?

AIGC动态欢迎阅读

原标题:如何解决大模型增量预训练中的灾难性遗忘?
关键字:模型,增量,数据,领域,方法
文章来源:算法邦
内容字数:5208字

内容摘要:


目前不少开源模型在通用领域具有不错的效果,但由于缺乏领域数据,往往在一些垂直领域中表现不理想,这时就需要增量预训练和微调等方法来提高模型的领域能力。
但在领域数据增量预训练或微调时,很容易出现灾难性遗忘现象,也就是学会了垂直领域知识,但忘记了通用领域知识。
今天给大家带来一篇增量预训练方法-Llama-Pro,对LLMs进行Transformer块扩展后,增量预训练过程中仅对新增块进行训练,有效地进行模型知识注入,并且极大程度地避免灾难性遗忘。
LLaMA Pro: Progressive LLaMA with Block Expansion
LLaMAPro:ProgressiveLLaMAwithBlockExpansion
Paper:https://arxiv.org/abs/2401.02415
Github:https://github.com/TencentARC/LLaMA-Pro
01块扩展方法块扩展,顾名思义,就是在原始模型中每个Transformer块或者某几个Transformer块后增加一个Transformer块,但为了保持扩展后的模型输出保持不变,需要增加


原文链接:如何解决大模型增量预训练中的灾难性遗忘?

联系作者

文章来源:算法邦
作者微信:allplusai
作者简介:「算法邦」,隶属于智猩猩,关注大模型、生成式AI、计算机视觉三大领域的研究与开发,提供技术文章、讲座、在线研讨会。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...