COLING24｜自适应剪枝让多模态大模型加速2-3倍，哈工大等推出SmartTrim

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：COLING24｜自适应剪枝让多模态大模型加速2-3倍，哈工大等推出SmartTrim
关键字：模型,冗余,方法,实例,开销
文章来源：机器之心
内容字数：4690字

内容摘要：

机器之心专栏
机器之心编辑部基于 Transformer 结构的视觉语言大模型（VLM）在各种下游的视觉语言任务上取得了巨大成功，但由于其较长的输入序列和较多的参数，导致其相应的计算开销地提升，阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度，前人提出了一些针对 VLM 的加速方法，包括剪枝和蒸馏等，但是现有的这些方法大都采用静态架构，其针对不同输入实例采用同样的计算图进行推理，忽略了不同实例之间具有不同计算复杂性的事实：针对复杂的跨模态交互实例，自然需要更多计算才能完全理解图像和相关问题的复杂细节；相反，简单的实例则可以用更少的计算量解决。这也导致较高加速比下的 VLM 的性能严重下降。
为了解决上述这些问题，哈工大联合度小满推出针对多模态模型的自适应剪枝算法 SmartTrim，论文已被自然语言处理顶级会议 COLING 24 接收。前期探究和研究动机
本文首先针对 VLM 中每一层的 token 表示和 attention head 的冗余情况进行分析，如下图所示。我们有了以下发现：（1）无论是哪种模态的 token 或者 head，层内相似性始终很高，说明模型是存在显着

原文链接：COLING24｜自适应剪枝让多模态大模型加速2-3倍，哈工大等推出SmartTrim