「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」
关键字：报告,模型,基准,测试,数据
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：Aeneas 好困
【新智元导读】「世界开源新王」Reflection 70B，才坐上王座没几天就被打假，跌落神坛了！甚至有人质疑，它莫不是套壳的Sonnet 3.5？发布者Matt Shumer和Sahil Chaudhary经过一番挣扎，已经光速「滑跪」，po出的复盘长文也是亮点满满。「开源新王」Reflection 70B，才发布一个月就跌落神坛了？
9月5日，Hyperwrite AI联创兼CEO Matt Shumer在X上扔出一则性消息——
用Meta的开源Llama 3.1-70B，团队微调出了Reflection 70B。它的基准测试结果惊人，可以和Claude 3.5 Sonnet以及GPT-4这类顶级闭源模型一较高下，直接登顶「世界开源新王」！
结果没多久，Reflection 70B就被打假了：公布的基准测试结果和他们的测试之间存在显著差异。
无论是AI研究者，还是第三方评估者，都无法复现Matt Shumer所声称的结果。
根据Artificial Analysis的数据，Reflection 70B在基准测试中的表现，竟然还不如原始版

原文链接：「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」