7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

AIGC动态2个月前发布 机器之心
22 0 0

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

AIGC动态欢迎阅读

原标题:7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单
关键字:视频,模型,腾讯,长上,南洋
文章来源:机器之心
内容字数:0字

内容摘要:


AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文主要作者来自 LMMs-Lab 团队与新加坡南洋理工大学。共同一作中,张培源是南洋理工大学研究助理,张恺宸是南洋理工大学四年级本科生,李博为南洋理工大学三年级博士生,指导教师为 MMLab@NTU 刘子纬教授。LMMs-Lab 是一个由学生、研究人员和教师组成的团队,致力于多模态模型的研究,主要研究方向包括多模态模型的训练与全面评估,此前的工作包括多模态测评框架 lmms-eval 等。
为什么说理解长视频难如 “大海捞针”?
现有的 LMMs 在处理长视频时面临的一个主要挑战是视觉 token 数量过多。比如,LLaVA-1.6 对单张图片就能生成 576 到 2880 个视觉 token。视频帧数越多,token 数量也就更多。虽然 BLIP2,LLa


原文链接:7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...