谷歌Gemini刚发就惹质疑：测试标准有失偏颇，效果视频疑似剪辑

AIGC动态3年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：谷歌Gemini刚发就惹质疑：测试标准有失偏颇，效果视频疑似剪辑

文章来源：量子位

内容字数：10318字

内容摘要：梦晨克雷西发自凹非寺量子位 | 公众号 QbitAI谷歌憋了许久的大招，双子座Gemini大模型终于发布！其中一图一视频最引人注目：一图，MMLU多任务语言理解数据集测试，Gemini Ultra不光超越GPT-4，甚至超越了人类专家。一视频，AI实时对人类的涂鸦和手势动作给出评论和吐槽，流畅还很幽默，最接近贾维斯的一集。然鹅当大家从惊喜中冷静下来，仔细阅读随之发布的60页技术报告时，却发现不妥之处。（没错，没有论文，OpenAICloseAI你开了个什么坏头啊）MMLU测试中，Gemini结果下面灰色小字标称CoT@32，展开来代表使用了思维链提示技巧、尝试了32次选最好结果。而作为对比的GPT-4，却是无提示词技巧、只尝试5次，这个标准下Gemini Ultra其实并不如GPT-4。以及原图比例尺也有点不厚道了，90.0%与人类基准89.8%明明只差一点，y轴上却拉开很远。Hug…

原文链接：点此阅读原文：谷歌Gemini刚发就惹质疑：测试标准有失偏颇，效果视频疑似剪辑