智源联合多所高校推出首个多任务长视频评测基准 MLVU:GPT-4o 单选正确率不到 65%

AIGC动态6个月前发布 AI前线
7 0 0

智源联合多所高校推出首个多任务长视频评测基准 MLVU:GPT-4o 单选正确率不到 65%

AIGC动态欢迎阅读

原标题:智源联合多所高校推出首个多任务视频评测基准 MLVU:GPT-4o 单选正确率不到 65%
关键字:视频,腾讯,任务,模型,问题
文章来源:AI前线
内容字数:0字

内容摘要:


作者 | 智源研究院 MLVU 团队
当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。因此,智源联合北邮、北大和浙大等多所高校提出首个多任务长视频理解评测基准 MLVU(A Comprehensive Benchmark for Multi-Task Long Video Understanding)。
MLVU 拥有充足且灵活可变的的视频长度、包含多种长视频来源、涵盖多个不同维度的长视频理解任务。通过对 20 个最新的流行多模态大模型(MLLM)评测发现,排名第一的 GPT-4o 的单选正确率不足 65%,揭示了现有模型在长视频理解任务上仍然面临重大挑战。我们的实证研究还探讨了多个影响大模型长视频理解能力的关键因素,期待 MLVU 能够推动社区对长视频理解研究的发展。
论文标题:
MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding
论文链接:
https://arxiv.org/abs/2406.04264
项目链接:
h


原文链接:智源联合多所高校推出首个多任务长视频评测基准 MLVU:GPT-4o 单选正确率不到 65%

联系作者

文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...