AIGC动态欢迎阅读
原标题:Llama2-7B升级为Pro版本!腾讯提出「块扩展」训练法,效果全面提升
关键字:模型,腾讯,方法,领域,初始化
文章来源:夕小瑶科技说
内容字数:4491字
内容摘要:
夕小瑶科技说 原创作者 | 付奶茶、python大语言模型在编程、数学、生物医学和金融等专业领域性能不佳,通过特定领域后训练可在降低资源消耗的同时提升性能。但是,后训练可能导致灾难性遗忘,从而削弱模型原有的通用处理能力,限制了其在多元任务上的应用。
腾讯最近发表的一篇研究论文介绍了一种通过复制Transformer块并用特定领域的数据对新块进行微调来扩展原始LLM的方法,生成LLaMA Pro-8.3B,初始化自LLaMA2-7B。这种方法使得模型在保持其通用能力的同时,能够有效融合新的知识。
论文标题:
LLAMA PRO: Progressive LLaMA with Block Expansion
论文链接:
https://arxiv.org/pdf/2401.02415.pdf
github代码:
https://github.com/TencentARC/LLaMA-Pro
块扩展方法本文提出了一种称为“块扩展”的简洁而有效的后训练方法。该方法通过复制现有预训练大语言模型(LLM)中的Transformer块来增强模型的能力。新添加的块中的线性层被初始化为零,以实现恒等映射
原文链接:Llama2-7B升级为Pro版本!腾讯提出「块扩展」训练法,效果全面提升
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI应用开发者、算法工程师和研究人员。一线作者均来自清北、国外顶级AI实验室和互联网大厂,兼备媒体sense与技术深度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...