智源联合多所高校推出首个多任务长视频评测基准 MLVU：GPT-4o 单选正确率不到 65%

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：智源联合多所高校推出首个多任务长视频评测基准 MLVU：GPT-4o 单选正确率不到 65%
关键字：视频,腾讯,任务,模型,问题
文章来源：AI前线
内容字数：0字

内容摘要：

作者 | 智源研究院 MLVU 团队
当前，研究社区亟需全面可靠的长视频理解评估基准，以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。因此，智源联合北邮、北大和浙大等多所高校提出首个多任务长视频理解评测基准 MLVU（A Comprehensive Benchmark for Multi-Task Long Video Understanding）。
MLVU 拥有充足且灵活可变的的视频长度、包含多种长视频来源、涵盖多个不同维度的长视频理解任务。通过对 20 个最新的流行多模态大模型（MLLM）评测发现，排名第一的 GPT-4o 的单选正确率不足 65%，揭示了现有模型在长视频理解任务上仍然面临重大挑战。我们的实证研究还探讨了多个影响大模型长视频理解能力的关键因素，期待 MLVU 能够推动社区对长视频理解研究的发展。
论文标题：
MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding
论文链接：
https://arxiv.org/abs/2406.04264
项目链接：
h

原文链接：智源联合多所高校推出首个多任务长视频评测基准 MLVU：GPT-4o 单选正确率不到 65%