GPT-4o仅排第二！北大港大等6所高校联手，发布权威多模态大模型榜单！

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：GPT-4o仅排第二！北大港大等6所高校联手，发布权威多模态大模型榜单！
关键字：视频,模型,字幕,音频,问题
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 谢年年多模态大模型视频分析能力榜单出炉：
Gemini 1.5 Pro最强，GPT-4o仅排第二？曾经红极一时的GPT-4V屈居第三。
最近，北大港大等6所高校联手，发布首个专为视频分析设计的多模态大模型评估基准——Video-MME。在该基准中，冠军Gemini 1.5 Pro甩开第二名GPT-4o近10分，第三名GPT-4V近15分。
而在开源模型中，最高分为LLaVA-NeXT-Video，但总体准确率只有52.5%，远远不及商业模型，还有较大提升空间。
论文标题:Video-MME: The First-Ever Comprehensive
Evaluation Benchmark of Multi-modal LLMs in Video Analysis
论文链接：https://arxiv.org/pdf/2405.21075
Video-MME是首个专为视频分析设计的多模态大模型评估基准，包含900段视频，并为每段视频设计了2,700个高质量的多选题，如下图例子所示：
Video-MME涵盖6大视觉领域，包括知识、电影与电视、体育竞赛、艺术表

原文链接：GPT-4o仅排第二！北大港大等6所高校联手，发布权威多模态大模型榜单！

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文