首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次
关键字：视频,数据,字幕,类型,问题
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：alan 好困
【新智元导读】近日，首个多模态LLM视频分析综合评估基准Video-MME诞生！在这场全新的考试中，Gemini 1.5 Pro一路遥遥领先，谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。大模型性能哪家强？GPT-4一家常霸榜。
基准测试全擅长，竞技场上见真章。
不过近日，谷歌的Gemini终于扬眉吐气了一把，在全新的、更复杂的多模态考试中大获全胜，全面超越了GPT-4o。
Jeff Dean表示：已阅，很赞。这就是来自中科大，厦大，港大，北大，港中文和华师大的研究者联合奉献的，世界上首个多模态LLM视频分析综合评估基准——Video-MME。
论文地址：https://arxiv.org/pdf/2405.21075
项目地址：https://video-mme.github.io/
在前往AGI的道路上，多模态大语言模型（MLLM）显然成为当前的焦点。
不久前出世的GPT-4o，就在多模态的表现上技惊四座；同时，偏爱谷歌「双子座」的网友也不在少数。不过之前的相关基准测试，主要关注LLM在静态图像理解方面的能力。
而对于现实世界来说，处理

原文链接：首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次