港中文 128 页全球首份 Gemini vs GPT-4V 多模态 PK 报告

AIGC动态3年前 (2023)发布 AI科技评论

AIGC动态欢迎阅读

原标题：港中文 128 页全球首份 Gemini vs GPT-4V 多模态 PK 报告
关键字：报告,模型,能力,视觉,任务
文章来源：AI科技评论
内容字数：13434字

内容摘要：

2023 年 12 月 6 日，谷歌发布了最新一代的通用人工智能大模型 Gemini，并报告在多项测试中取得了最先进的结果，甚至在 MMLU 测试中首次取得了超过人类专家的成绩，人工智能似乎进入 Gemini 时代。
直到北京时间上周三晚谷歌才正式开放 Gemini Pro 版本的 API，使得用户可以亲自体验。Gemini 的实际多模态能力究竟如何呢？是否真如他们技术报告和宣传视频中展示的那样？是否超越了 GPT-4V？和其他开源模型相比又如何呢？
在 Gemini Pro 的 API 开放后不到一周，港中文联合多加单位共同公布了一份长达 128 页的评测报告，将 Gemini Pro 与目前最先进的 GPT-4V 进行对比，探索其是否能挑战 GPT-4V 的在多模态领域的霸主地位，并和最新的开源大模型 SPHNIX 进行比较，揭示开源模型与黑盒系统之间的差距。
论文链接：https://arxiv.org/pdf/2312.12436.pdf
项目链接：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Mode

原文链接：港中文 128 页全球首份 Gemini vs GPT-4V 多模态 PK 报告