GPT-4o差点没及格！首个多任务长视频评测基准，它有亿点难

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：GPT-4o差点没及格！首个多任务长视频评测基准，它有亿点难
关键字：视频,任务,细节,问题,模型
文章来源：量子位
内容字数：0字

内容摘要：

MLVU团队投稿量子位 | 公众号 QbitAI难度大升级的多任务长视频理解评测基准MLVU来了！
由智源联合北邮、北大和浙大等多所高校推出。
究竟有多难呢？最终排名第一的GPT-4o单选正确率还不足65%。
而且研究发现，大部分模型的性能都会随着视频时长增加显著下降。
研究进一步证明，提升上下文窗口，提升图像理解能力，以及使用更强大的LLM Backbone对长视频理解的性能具有显著的提升作用。
目前相关论文及数据集已公开，具体细节下面一起看看吧~
MLVU的构建过程当前流行的Video Benchmark主要针对短视频设计，大部分视频的长度都在1分钟以内。
且现有评测基准往往专注在特定领域的视频（例如电影、第一视角）和特定的视频评测任务（例如Captioning，Temporal Perception，Action Understanding）。
此外，现有部分长视频理解评测任务往往只和局部帧有关，或者针对经典电影进行问答，这导致MLLMs可以直接凭借text prompt正确回答而无需对视频进行分析。
针对以上不足，新基准MLVU从以下3个层面进行构建：
时长和来源更丰富MLV

原文链接：GPT-4o差点没及格！首个多任务长视频评测基准，它有亿点难