本文在 Qwen2-VL 和 InternVL2.0 上验证了此种剪枝策略的普适性。
多模态大模型的剪枝策略研究
随着大语言模型的成功,多模态大模型在视觉、文本等多模态任务中表现出了大的能力。然而,视觉 token 数量的急剧增加使得计算复杂度显著提升,限制了模型的可扩展性与应用效率。本文提出了一系列针对多模态大模型的剪枝策略,以 LLaVA 为实验对象,旨在通过参数和计算模式层面的冗余优化,显著降低计算开销,同时保持模型的性能。
1. 研究动机
在多模态大模型中,视觉 token 的数量远超文本 token,导致计算效率低下,尤其是在大规模模型中,注意力机制的复杂度随着输入 token 数量的增加呈二次增长。此外,现有的优化策略常常以牺牲模型性能为代价,因此如何在不影响性能的前提下降低计算复杂度成为一个重要的研究方向。
2. 提出的剪枝策略
本文提出了四种主要的剪枝策略:
- 邻域感知的视觉注意力:通过限制视觉 token 之间的交互仅发生在邻近 token 之间,显著减少了无用的计算开销。
- 非活跃注意力头的剪枝:分析发现部分注意力头没有被激活,剪除这些冗余的注意力头几乎不会影响模型性能。
- 稀疏前馈网络投影:在前馈网络中随机丢弃部分神经元,利用视觉表达的稀疏性来降低计算量。
- 选择性层丢弃:通过跳过靠后层的视觉计算,减少计算开销,进一步提高效率。
3. 实验结果
研究团队在 LLaVA-1.5 模型上应用了上述剪枝策略,结果显示 FLOPs 分别被压缩至 25% 和 12%。在多个基准任务上,剪枝后的模型在相同计算预算下表现最佳,超出其他方法的性能。此外,验证剪枝策略的普适性后,发现该方法在 Qwen2-VL 和 InternVL2.0 等其他多模态大模型上同样有效。
4. 总结与展望
本文的研究为多模态大模型的高效计算提供了的视角。通过深入挖掘视觉参数与计算模式的冗余性,不仅实现了显著的计算开销降低,还在一定程度上保持了模型性能。未来,研究团队将继续探索如何在更广泛的多模态场景中应用这些剪枝策略,推动大模型的实际应用落地。
联系作者
文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...