如何解决大模型增量预训练中的灾难性遗忘？

AIGC动态1年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：如何解决大模型增量预训练中的灾难性遗忘？
关键字：模型,增量,数据,领域,方法
文章来源：算法邦
内容字数：5208字

内容摘要：

目前不少开源模型在通用领域具有不错的效果，但由于缺乏领域数据，往往在一些垂直领域中表现不理想，这时就需要增量预训练和微调等方法来提高模型的领域能力。
但在领域数据增量预训练或微调时，很容易出现灾难性遗忘现象，也就是学会了垂直领域知识，但忘记了通用领域知识。
今天给大家带来一篇增量预训练方法-Llama-Pro，对LLMs进行Transformer块扩展后，增量预训练过程中仅对新增块进行训练，有效地进行模型知识注入，并且极大程度地避免灾难性遗忘。
LLaMA Pro: Progressive LLaMA with Block Expansion
LLaMAPro:ProgressiveLLaMAwithBlockExpansion
Paper:https://arxiv.org/abs/2401.02415
Github:https://github.com/TencentARC/LLaMA-Pro
01块扩展方法块扩展，顾名思义，就是在原始模型中每个Transformer块或者某几个Transformer块后增加一个Transformer块，但为了保持扩展后的模型输出保持不变，需要增加

原文链接：如何解决大模型增量预训练中的灾难性遗忘？