Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

AIGC动态11个月前发布 量子位
12 0 0

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

AIGC动态欢迎阅读

原标题:Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复
关键字:问题,任务,模型,团队,提示
文章来源:量子位
内容字数:3629字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAI谷歌Gemini实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。
为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。
不会像谷歌官方发布会那样,用CoT@32对比5-shot了。
一句话结果:Gemini Pro版本接近但略逊于GPT-3.5 Turbo,GPT-4还是遥遥领先。
在深入分析中还发现Gemini一些奇怪特性,比如选择题喜欢选D……
不少研究者表示,太卷了,Gemini刚发布没几天就搞出这么详细的测试。
六大任务深入测试这项测试具体比较了6大任务,分别选用相应的数据集:
知识问答:MMLU
推理:BIG-Bench Hard
数学:GSM8k、SVAMP、ASDIV、MAWPS
代码:HumanEval、ODEX
翻译:FLORES
上网冲浪:WebArena
知识问答:喜欢选D从结果可以看出,使用思维链提示在这类任务上不一定能带来提升。
MMLU数据集里都是多选题,对结果进一步分析还发现奇怪现象:Gemini更喜欢选D。
GPT系列在4个选项上的分布就要平衡很多,团队提出这可能是G


原文链接:Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...