GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

AIGC动态4个月前发布 新智元
8 0 0

GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

AIGC动态欢迎阅读

原标题:GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
关键字:报告,模型,能力,基准,测试
文章来源:新智元
内容字数:6334字

内容摘要:


新智元报道编辑:编辑部
【新智元导读】OpenAI半小时的发布会让很多人第一反应是直呼「失望」,但随着官网放出更多demo以及更多网友开始试用,大家才发现GPT-4o真的不可小觑,不仅在各种基准测试中稳拿第一,而且有很多发布会从未提及的惊艳功能。OpenAI在发布会上官宣GPT-4o之后,各路大神也开始了对这个新模型的测评,结果就是,GPT-4o在多项基准测试上都展现了SOTA的实力。
别家发布会都在画饼,OpanAI却总能开出一种「欲扬先抑」的效果,惊喜全在发布会之后。
基准测试结果首先,在LMSys聊天机器人竞技场上的ELO分数排行上,GPT-4o套了一个GPT2聊天机器人的马甲,以一骑绝尘的态势名列第一,评分为1310,和第二名GPT-4-turbo的1253分相比,呈现断档式的提升。
再来看多模态领域的基准Reka Vibe-Eval,这也是一个很有挑战性的测试,由 269 个超高质量图像文本对组成,用于评估多模态语言模型的性能。
在Reka Vibe-Eval 分数的排行榜上,GPT-4o再次荣登第一,相比谷歌新发布的Gemini Pro 1.5高出了将近三个百分点。
而且


原文链接:GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...