Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复
关键字：问题,任务,模型,团队,提示
文章来源：量子位
内容字数：3629字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI谷歌Gemini实力到底如何？梅隆大学来了场专业客观第三方比较。
为保证公平，所有模型使用相同的提示和生成参数，并且提供可重复的代码和完全透明的结果。
不会像谷歌官方发布会那样，用CoT@32对比5-shot了。
一句话结果：Gemini Pro版本接近但略逊于GPT-3.5 Turbo，GPT-4还是遥遥领先。
在深入分析中还发现Gemini一些奇怪特性，比如选择题喜欢选D……
不少研究者表示，太卷了，Gemini刚发布没几天就搞出这么详细的测试。
六大任务深入测试这项测试具体比较了6大任务，分别选用相应的数据集：
知识问答：MMLU
推理：BIG-Bench Hard
数学：GSM8k、SVAMP、ASDIV、MAWPS
代码：HumanEval、ODEX
翻译：FLORES
上网冲浪：WebArena
知识问答：喜欢选D从结果可以看出，使用思维链提示在这类任务上不一定能带来提升。
MMLU数据集里都是多选题，对结果进一步分析还发现奇怪现象：Gemini更喜欢选D。
GPT系列在4个选项上的分布就要平衡很多，团队提出这可能是G