V2PE 的提出将为视觉 – 语言模型的发展带来新的机遇。
原标题:仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破
文章来源:机器之心
内容字数:5998字
清华、港大、上海AI Lab 联合提出V2PE:解决视觉语言大模型长上下文难题
本文介绍了清华大学、香港大学和上海AI Lab 联合提出的一种新的视觉语言大模型位置编码方法——Variable Vision Position Embedding (V2PE),该方法有效解决了现有视觉语言大模型 (VLMs) 在长上下文场景下表现不佳的问题。
1. 长上下文问题与V2PE的提出
随着语言大模型的成功,VLMs发展迅速,但在处理长上下文(如长视频、高分辨率图像或长篇图文文档)时,其性能显著下降。 为解决这一问题,研究团队提出了V2PE。现有VLMs通常沿用文本模型的位置编码方式处理图像token,这并非最优方案。V2PE通过为视觉token分配可变且较小的位置增量,避免了位置编码超出模型训练上下文窗口的限制,从而显著提升了模型在长上下文任务中的表现。
2. V2PE的核心思想与优势
V2PE的核心思想是为视觉token分配可变位置增量。传统的VLMs位置编码不区分文本和图像token,且使用固定的编码规则。而图像token是二维数据,需要考虑空间位置和多分辨率信息。V2PE通过一个递归函数,为文本和视觉token分配不同的位置索引,视觉token的增量小于1,从而有效管理长多模态序列。这保留了所有视觉token的信息,并允许模型适应任意间隔的位置索引,避免了位置编码外推带来的不准确性。
3. 数据集与实验结果
研究团队构建了两个增强的长上下文多模态数据集:Long-VQA和Long-MR,用于评估VLMs的长上下文能力。实验结果表明,V2PE在32K至1M长度的超长上下文任务中实现了突破性改进,甚至超越了最先进的闭源大模型。在32K以内训练的模型,在64K长度的测试集上,采用更小的增量可以有效缓解性能下降。在1M长度的测试中,V2PE显著优于未采用V2PE的模型和使用插值方法的模型。
4. 消融实验与注意力机制分析
消融实验比较了V2PE与其他方法(如token压缩、固定视觉token位置编码增量)的性能,证明了V2PE的优势。注意力图分析显示,随着增量的减小,模型能更好地将注意力集中在问题对应的答案附近,证明V2PE能够有效提升模型对关键信息的关注。
5. 总结
V2PE为视觉语言模型在长上下文场景下的性能提升提供了一种新的思路。通过为视觉token分配可变的位置增量,V2PE有效解决了位置编码超出模型训练上下文窗口的问题,展现了卓越的长上下文处理能力,为VLMs在长上下文多模态任务中的应用提供了更多可能性。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台