Llama2-7B升级为Pro版本！腾讯提出「块扩展」训练法，效果全面提升

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：Llama2-7B升级为Pro版本！腾讯提出「块扩展」训练法，效果全面提升
关键字：模型,腾讯,方法,领域,初始化
文章来源：夕小瑶科技说
内容字数：4491字

内容摘要：

夕小瑶科技说原创作者 | 付奶茶、python大语言模型在编程、数学、生物医学和金融等专业领域性能不佳，通过特定领域后训练可在降低资源消耗的同时提升性能。但是，后训练可能导致灾难性遗忘，从而削弱模型原有的通用处理能力，限制了其在多元任务上的应用。
腾讯最近发表的一篇研究论文介绍了一种通过复制Transformer块并用特定领域的数据对新块进行微调来扩展原始LLM的方法，生成LLaMA Pro-8.3B，初始化自LLaMA2-7B。这种方法使得模型在保持其通用能力的同时，能够有效融合新的知识。
论文标题:
LLAMA PRO: Progressive LLaMA with Block Expansion
论文链接:
https://arxiv.org/pdf/2401.02415.pdf
github代码:
https://github.com/TencentARC/LLaMA-Pro
块扩展方法本文提出了一种称为“块扩展”的简洁而有效的后训练方法。该方法通过复制现有预训练大语言模型（LLM）中的Transformer块来增强模型的能力。新添加的块中的线性层被初始化为零，以实现恒等映射

原文链接：Llama2-7B升级为Pro版本！腾讯提出「块扩展」训练法，效果全面提升