“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了

AIGC动态2个月前发布 量子位
12 0 0

“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了

AIGC动态欢迎阅读

原标题:“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
关键字:报告,模型,表示,成绩,测试
文章来源:量子位
内容字数:0字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假——
不仅官方宣称的成绩在第三方测试中大打折扣,模型还被质疑套壳Claude。
面对浩大的声浪,厂商CEO终于发文道歉,但并未承认造假,表示在调查有关原因。
被指控造假的,就是宣称“干翻GPT-4o”的70B开源大模型Reflection。
一开始的质疑主要关于测试成绩,官方找了上传版本有误等借口试图“蒙混过关”。
但后来又出现了套壳Claude这一更重磅的指控,让Reflection更加百口莫辩。
表现不如宣传,还被质疑套壳Reflection是一个70B的开源模型,按照厂商的说法,它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro这一系列先进模型全都超过了。
但Reflection刚发布两天,第三方独立测评机构Artificial Analysis就表示官方发布的测试成绩无法复现。
在MMLU、GPQA和MATH上,Reflection的成绩和Llama3 70B一样,连Llama 3.1-70B都比不过,更不用说


原文链接:“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...