无需额外训练提升模型30%性能！DeepMind科学家点赞MIT博士生实习成果

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：无需额外训练提升模型30%性能！DeepMind科学家点赞MIT博士生实习成果
关键字：模型,矩阵,权重,组件,性能
文章来源：量子位
内容字数：4117字

内容摘要：

丰色发自凹非寺量子位 | 公众号 QbitAI一个来自MIT博士生的惊人发现：
只需对Transformer的特定层进行一种非常简单的修剪，即可在缩小模型规模的同时显著提高模型性能。
效果主要体现在文本理解任务上，最高可达30%。
这在3个模型（LLama2、GPT-J和Roberta）和8个不同数据集上都得到了验证（包含认知推理、世界知识等）。
除了文本理解，它也适用于强化学习。
当然，更重要的是，这个操作只需在模型训练完成之后进行，不需要额外的参数和数据。
DeepMind研究科学家看完都来点赞了：
那么，它具体怎么做的？
方法概述该方法全称“ Layer-Selective Rank Reduction”，简称“LASER”。
这是一种选择性地去除LLM权重矩阵高阶组件（components）的干预措施，操作就在Transformer模型的特定权重矩阵和层中进行。
研究发现，即使完全去除90%以上，模型性能一般也不会下降。
具体而言，LASER通过rank-k近似来替换Transformer模型中的特定权重矩阵（W），有时仅减少包含前1%组件的矩阵，也能达到不错的效果。
一个

原文链接：无需额外训练提升模型30%性能！DeepMind科学家点赞MIT博士生实习成果