具有三维结构,保留时空关系
原标题:Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档
文章来源:量子位
内容字数:4948字
VideoRoPE: 增强长视频理解和检索的旋转位置嵌入
本文总结了复旦大学、上海AI实验室等机构提出的VideoRoPE,一种将旋转位置嵌入(RoPE)扩展到视频领域的全新方法,显著提升了长视频理解和检索能力。
1. RoPE在视频领域的挑战与VideoRoPE的创新
RoPE因其处理长序列的能力而备受关注,但将其应用于具有复杂时空结构的视频数据仍然是一个挑战。先前的方法,如M-RoPE,在时间维度建模上存在不足,容易受到干扰项的影响,且难以捕捉长距离时空依赖关系。VideoRoPE针对这些问题进行了创新,提出了三个关键特性:低频时间分配(LTA)、对角线布局(DL)和可调时间间隔(ATS)。
2. VideoRoPE的三个核心特性
- 低频时间分配 (LTA): 为了避免时间维度上的高频振荡导致的“哈希碰撞”,VideoRoPE采用低频旋转角度来建模时间依赖性,从而增强模型对干扰项的鲁棒性,并有效捕捉长距离时间依赖关系。
- 对角线布局 (DL): VideoRoPE采用对角线布局来保持空间对称性,确保空间索引的合理增长,避免视觉标记过于靠近角落,并保持与原始RoPE编码形式的一致性。
- 可调时间间隔 (ATS): 通过引入缩放因子,VideoRoPE可以灵活调整时间索引,更好地对齐视觉和文本标记之间的时间信息,从而有效控制时间间隔,提升模型的时空建模能力。
3. VideoRoPE的性能表现
研究团队通过一系列实验,在长视频检索、视频理解和视频幻觉等任务上评估了VideoRoPE的性能。结果表明,VideoRoPE在V-NIAH-D(带干扰项的视觉大海捞针)等具有挑战性的任务中,显著优于Vanilla RoPE、TAD-RoPE和M-RoPE等现有方法。尤其在长视频理解任务(LongVideoBench、MLVU、Video-MME)和视频幻觉任务(VideoHallucinator)中,VideoRoPE都展现出更强的鲁棒性和更优越的性能,体现了其在捕捉长距离时空依赖关系方面的优势。
4. VideoRoPE的四个关键标准
这项工作也总结了有效视频位置编码的四个关键标准:2D/3D结构、频率分配、空间对称性和时间索引缩放。VideoRoPE通过合理的结构设计和参数调整,满足了这四个标准,从而实现了优异的性能。
5. 结论
VideoRoPE通过巧妙的设计,有效地解决了将RoPE扩展到视频领域所面临的挑战,在长视频理解和检索任务中取得了显著的成果。其提出的三个核心特性为未来视频位置编码的研究提供了新的思路和方向。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破