“最强开源模型”被打假，CEO下场致歉，英伟达科学家：现有测试基准已经不靠谱了

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：“最强开源模型”被打假，CEO下场致歉，英伟达科学家：现有测试基准已经不靠谱了
关键字：报告,模型,表示,成绩,测试
文章来源：量子位
内容字数：0字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI小型创业团队打造的“最强开源模型”，发布才一周就被质疑造假——
不仅官方宣称的成绩在第三方测试中大打折扣，模型还被质疑套壳Claude。
面对浩大的声浪，厂商CEO终于发文道歉，但并未承认造假，表示在调查有关原因。
被指控造假的，就是宣称“干翻GPT-4o”的70B开源大模型Reflection。
一开始的质疑主要关于测试成绩，官方找了上传版本有误等借口试图“蒙混过关”。
但后来又出现了套壳Claude这一更重磅的指控，让Reflection更加百口莫辩。
表现不如宣传，还被质疑套壳Reflection是一个70B的开源模型，按照厂商的说法，它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro这一系列先进模型全都超过了。
但Reflection刚发布两天，第三方测评机构Artificial Analysis就表示官方发布的测试成绩无法复现。
在MMLU、GPQA和MATH上，Reflection的成绩和Llama3 70B一样，连Llama 3.1-70B都比不过，更不用说

原文链接：“最强开源模型”被打假，CEO下场致歉，英伟达科学家：现有测试基准已经不靠谱了