7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单
关键字：视频,模型,腾讯,长上,南洋
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文主要作者来自 LMMs-Lab 团队与新加坡南洋理工大学。共同一作中，张培源是南洋理工大学研究助理，张恺宸是南洋理工大学四年级本科生，李博为南洋理工大学三年级博士生，指导教师为 MMLab@NTU 刘子纬教授。LMMs-Lab 是一个由学生、研究人员和教师组成的团队，致力于多模态模型的研究，主要研究方向包括多模态模型的训练与全面评估，此前的工作包括多模态测评框架 lmms-eval 等。
为什么说理解长视频难如 “大海捞针”？
现有的 LMMs 在处理长视频时面临的一个主要挑战是视觉 token 数量过多。比如，LLaVA-1.6 对单张图片就能生成 576 到 2880 个视觉 token。视频帧数越多，token 数量也就更多。虽然 BLIP2,LLa

原文链接：7B最强长视频模型！ LongVA视频理解超千帧，霸榜多个榜单