ParGo 克服了传统方法中忽视细节的问题。
原标题:如何高效桥接视觉和语言,字节&中大提出全新多模态大模型连接器ParGo
文章来源:机器之心
内容字数:3778字
字节跳动与中大合作:ParGo模型革新多模态大语言模型视觉-语言连接
本文总结了字节跳动与中山大学合作提出的ParGo模型,该模型在多模态大语言模型(MLLMs)的视觉-语言连接方面取得了显著突破,并被AAAI 2025收录。
1. 多模态大语言模型中的视觉-语言连接挑战
在MLLMs中,高效地将视觉特征映射到LLM的语言空间是关键。传统的线性投影或多层感知机(MLP)方法难以控制视觉token数量,尤其在处理细粒度特征时计算成本极高。基于注意力机制的方法(如Q-former)虽然降低了计算成本,但容易忽略图像细节,过度关注显著区域。
2. ParGo模型:全局视野与局部细节的融合
为了解决上述问题,ParGo模型提出了一种创新的全局-局部投影器。该模型的核心在于巧妙地融合全局视野和局部细节,通过两种类型的可学习token——Partial token和Global token——分别提取图像的局部和全局信息。
3. 核心模块:Partial-Global Perception Block (PGP) 和 Cascaded Partial Perception Block (CPP)
ParGo包含两个关键模块:PGP和CPP。PGP模块利用Partial-Global Attention Mask,同时输出包含局部和全局信息的Partial tokens和Global tokens。CPP模块则通过级联的自注意力机制,逐步扩展Partial token的感知范围,增强对多种局部信息的捕获能力,尤其是在不同局部物体占比不同的情况下。
4. 实验结果与对比
论文在多个权威基准测试中对ParGo与其他主流投影器进行了对比,结果显示ParGo在各种基座LLM下均表现出色,取得了最佳性能。尤其是在控制token数量的同时,ParGo在文字识别准确率、图像细节描述程度和局部元素识别效果上都优于其他方法,例如Q-former。
5. ParGo模型的优势与总结
ParGo模型通过结合局部和全局信息,并使用精心设计的注意力掩码,在控制token数量的同时,增强了局部区域之间的关系建模,有效克服了传统方法忽视细节的问题。这使得ParGo能够在更细腻的层面上展现视觉特征,实现视觉特征和LLM的高效连接,显著提升了多模态大语言模型的效果。
总之,ParGo模型为多模态大语言模型的视觉-语言连接提供了一种高效且有效的解决方案,其在兼顾全局信息和局部细节方面的创新,为未来MLLMs的发展指明了新的方向。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台