「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

AIGC动态3个月前发布 新智元
6 0 0

「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

AIGC动态欢迎阅读

原标题:「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
关键字:报告,模型,基准,测试,数据
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:Aeneas 好困
【新智元导读】「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的Sonnet 3.5?发布者Matt Shumer和Sahil Chaudhary经过一番挣扎,已经光速「滑跪」,po出的复盘长文也是亮点满满。「开源新王」Reflection 70B,才发布一个月就跌落神坛了?
9月5日,Hyperwrite AI联创兼CEO Matt Shumer在X上扔出一则性消息——
用Meta的开源Llama 3.1-70B,团队微调出了Reflection 70B。它的基准测试结果惊人,可以和Claude 3.5 Sonnet以及GPT-4这类顶级闭源模型一较高下,直接登顶「世界开源新王」!
结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的测试之间存在显著差异。
无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。
根据Artificial Analysis的数据,Reflection 70B在基准测试中的表现,竟然还不如原始版


原文链接:「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...