无需训练
NumPro:提升视频大模型时序定位能力的创新方法
NumPro团队通过创新方法显著提高了视频大语言模型(Vid-LLMs)在视频时序定位任务中的表现。该方法灵感来源于漫画,通过在视频帧上添加数字标识符,将时序信息与视觉内容直接关联,类似于漫画中编号的画格,引导观众理解故事的顺序。
一、背景与挑战
尽管Vid-LLMs在视频内容理解上取得了显著进展,但在视频时序定位(Video Temporal Grounding,VTG)任务中仍面临挑战。例如,精确定位视频中事件的发生时刻对于实际应用至关重要,但现有模型很难做到这一点。传统方法通常需要大量的训练和复杂的适配,限制了其灵活性和可迁移性。
二、NumPro的实现
NumPro的核心创新在于其训练自由的设置。该方法无需额外训练,通过为每个视频帧标记帧号,利用Vid-LLMs的光学字符识别(OCR)能力,模型可以轻松“读取”时间线。通过添加简单指令,告知模型帧号的含义,从而实现帧级边界的准确识别。
三、微调优化设置
为了进一步提升性能,研究团队还提出了NumPro-FT,通过在NumPro增强数据集上对Vid-LLMs进行微调,将帧号与训练数据中的时间跨度对齐。微调过程中,仅对视觉投影仪和大语言模型(LLM)组件进行优化,采用低秩适应(LoRA)技术,有效减少了参数数量和训练开销。
四、设计优化与实验结果
研究团队对字体大小、颜色和位置进行了优化,最终确定了最佳设计为字体大小40、颜色红色、位置右下角。在标准VTG基准测试中,NumPro表现卓越,尤其是在Moment Retrieval任务中,其性能接近或超过了以往的最优水平。经过NumPro-FT微调后,模型在多个数据集上的指标大幅超越现有SOTA。
五、广泛适用性与未来展望
NumPro不仅在领先模型上效果显著,还可以广泛应用于多种Vid-LLMs,如LLaVA-Video-7B和Qwen2-VL-72B等。结合微调时,NumPro-FT的表现始终优于传统微调方法,尤其在较长视频数据集上表现突出。在通用视频问答任务中,NumPro对一般理解指标影响极小,显示出其在提升视频时序定位能力的巨大潜力。
总之,NumPro的创新方法为视频理解领域带来了新的突破,预示着未来在视频分析和应用中的广泛前景。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破