AIGC动态欢迎阅读
原标题:首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次
关键字:视频,数据,字幕,类型,问题
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:alan 好困
【新智元导读】近日,首个多模态LLM视频分析综合评估基准Video-MME诞生!在这场全新的考试中,Gemini 1.5 Pro一路遥遥领先,谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。大模型性能哪家强?GPT-4一家常霸榜。
基准测试全擅长,竞技场上见真章。
不过近日,谷歌的Gemini终于扬眉吐气了一把,在全新的、更复杂的多模态考试中大获全胜,全面超越了GPT-4o。
Jeff Dean表示:已阅,很赞。这就是来自中科大,厦大,港大,北大,港中文和华师大的研究者联合奉献的,世界上首个多模态LLM视频分析综合评估基准——Video-MME。
论文地址:https://arxiv.org/pdf/2405.21075
项目地址:https://video-mme.github.io/
在前往AGI的道路上,多模态大语言模型(MLLM)显然成为当前的焦点。
不久前出世的GPT-4o,就在多模态的表现上技惊四座;同时,偏爱谷歌「双子座」的网友也不在少数。不过之前的相关基准测试,主要关注LLM在静态图像理解方面的能力。
而对于现实世界来说,处理
原文链接:首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...