给Transformer降降秩,移除特定层90%以上组件LLM性能不减

AIGC动态11个月前发布 机器之心
18 0 0

给Transformer降降秩,移除特定层90%以上组件LLM性能不减

AIGC动态欢迎阅读

原标题:给Transformer降降秩,移除特定层90%以上组件LLM性能不减
关键字:模型,矩阵,研究者,权重,性能
文章来源:机器之心
内容字数:5479字

内容摘要:


机器之心报道
编辑:陈萍、杜伟MIT、微软联合研究:不需要额外训练,也能增强大语言模型的任务性能并降低其大小。在大模型时代,Transformer 凭一己之力撑起了整个科研领域。自发布以来,基于 Transformer 的 LLM 在各种任务上表现出卓越的性能,其底层的 Transformer 架构已成为自然语言建模和推理的最先进技术,并在计算机视觉和强化学习等领域显示出强有力的前景。
然而,当前 Transformer 架构非常庞大,通常需要大量计算资源来进行训练和推理。
这是有意为之的,因为经过更多参数或数据训练的 Transformer 显然比其他模型更有能力。尽管如此,越来越多的工作表明,基于 Transformer 的模型以及神经网络不需要所有拟合参数来保留其学到的假设。
一般来讲,在训练模型时大规模过度参数化似乎很有帮助,但这些模型可以在推理之前进行大幅剪枝;有研究表明神经网络通常可以去除 90% 以上的权重,而性能不会出现任何显著下降。这种现象促使研究者开始转向有助于模型推理的剪枝策略研究。
来自 MIT、微软的研究者在论文《 The Truth is in There:


原文链接:给Transformer降降秩,移除特定层90%以上组件LLM性能不减

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...