AIGC动态欢迎阅读
原标题:无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生实习成果
关键字:模型,矩阵,权重,组件,性能
文章来源:量子位
内容字数:4117字
内容摘要:
丰色 发自 凹非寺量子位 | 公众号 QbitAI一个来自MIT博士生的惊人发现:
只需对Transformer的特定层进行一种非常简单的修剪,即可在缩小模型规模的同时显著提高模型性能。
效果主要体现在文本理解任务上,最高可达30%。
这在3个模型(LLama2、GPT-J和Roberta)和8个不同数据集上都得到了验证(包含认知推理、世界知识等)。
除了文本理解,它也适用于强化学习。
当然,更重要的是,这个操作只需在模型训练完成之后进行,不需要额外的参数和数据。
DeepMind研究科学家看完都来点赞了:
那么,它具体怎么做的?
方法概述该方法全称“ Layer-Selective Rank Reduction”,简称“LASER”。
这是一种选择性地去除LLM权重矩阵高阶组件(components)的干预措施,操作就在Transformer模型的特定权重矩阵和层中进行。
研究发现,即使完全去除90%以上,模型性能一般也不会下降。
具体而言,LASER通过rank-k近似来替换Transformer模型中的特定权重矩阵(W),有时仅减少包含前1%组件的矩阵,也能达到不错的效果。
一个
原文链接:无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生实习成果
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...