AIGC动态欢迎阅读
原标题:谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
关键字:报告,能力,模型,任务,视觉
文章来源:量子位
内容字数:7085字
内容摘要:
happy投稿量子位 | 公众号 QbitAI谷歌扳回一局!
在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示:
在37个视觉理解任务上,Gemini-Pro表现出了和GPT-4V相当的能力。
在多模态专有基准MME上,Gemini-Pro的感知和认知综合表现则直接获得了1933.4的高分,超越GPT-4V(1926.6)。
此前,CMU测评发现Gemini-Pro的综合能力居然和GPT-3.5差不多。
现在,在多模态这个一大主推的卖点上,Gemini-Pro可算是扳回一局。
那么具体如何?
测评报告一共128页,咱们就挑重点来看。
Gemini-Pro的首份多模态能力报告来了这份测评主要是对Gemini-Pro的视觉理解能力进行评估。
一共涵盖基础感知、高级认知、挑战性视觉任务和各种专家能力四大领域,在37个细分任务项上进行定性比较。
定量评估则在专为多模态大语言模型专门设计的评测基准MME上展开。
首先来看定量测试结果。
MME上综合表现比GPT-4V强MME基准包含两大类任务。
一个是感知,涵盖目标存在性判断、物体计数、位置关
原文链接:谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...