GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4
关键字：报告,模型,能力,基准,测试
文章来源：新智元
内容字数：6334字

内容摘要：

新智元报道编辑：编辑部
【新智元导读】OpenAI半小时的发布会让很多人第一反应是直呼「失望」，但随着官网放出更多demo以及更多网友开始试用，大家才发现GPT-4o真的不可小觑，不仅在各种基准测试中稳拿第一，而且有很多发布会从未提及的惊艳功能。OpenAI在发布会上官宣GPT-4o之后，各路大神也开始了对这个新模型的测评，结果就是，GPT-4o在多项基准测试上都展现了SOTA的实力。
别家发布会都在画饼，OpanAI却总能开出一种「欲扬先抑」的效果，惊喜全在发布会之后。
基准测试结果首先，在LMSys机器人竞技场上的ELO分数排行上，GPT-4o套了一个GPT2机器人的马甲，以一骑绝尘的态势名列第一，评分为1310，和第二名GPT-4-turbo的1253分相比，呈现断档式的提升。
再来看多模态领域的基准Reka Vibe-Eval，这也是一个很有挑战性的测试，由 269 个超高质量图像文本对组成，用于评估多模态语言模型的性能。
在Reka Vibe-Eval 分数的排行榜上，GPT-4o再次荣登第一，相比谷歌新发布的Gemini Pro 1.5高出了将近三个百分点。
而且

原文链接：GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4