大模型测试题爆火,GPT-4和Claude3都跪了,LeCun转发:新Benchmark

AIGC动态6个月前发布 量子位
17 0 0

大模型测试题爆火,GPT-4和Claude3都跪了,LeCun转发:新Benchmark

AIGC动态欢迎阅读

原标题:大模型测试题爆火,GPT-4和Claude3都跪了,LeCun转发:新Benchmark
关键字:模型,腾讯,农夫,问题,狐狸
文章来源:量子位
内容字数:0字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI一项新的“大模型Benchmark”在上爆火,LeCun也点赞转发了!
而且无论是GPT-4还是Claude 3,面对它都如同被夺了魂,无法给出正确答案。
难倒一众大模型的,是逻辑学当中经典的“动物过河”问题,有网友发现,大模型对此类问题表现得很不擅长。
甚至有人观察到,几个不同的模型都给出了一致的(错误)答案,让人怀疑他们是不是用了相同的训练数据。
针对这项测试,网友还定义了一个新的名词叫“劣效比率”(crapness ratio),让LeCun打趣说到,一项新的“Benchmark”诞生了。
“模见模愁”的动物过河首先来看一下什么是“动物过河”问题,这是逻辑学当中的一道经典题目。
问题的原型是这样的:
农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。
在这个问题当中,农夫需要七次(往返视为两次)过河——先把羊运过去,然后空船返回,再把狼运过河,带回羊,然后运送白菜,再空船返回,最后运送羊。
而劣效比率的定义,就是模型给出的运送次数与实际最少所需次数的比值。


原文链接:大模型测试题爆火,GPT-4和Claude3都跪了,LeCun转发:新Benchmark

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...