大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark
关键字：模型,腾讯,农夫,问题,狐狸
文章来源：量子位
内容字数：0字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI一项新的“大模型Benchmark”在上爆火，LeCun也点赞转发了！
而且无论是GPT-4还是Claude 3，面对它都如同被夺了魂，无法给出正确答案。
难倒一众大模型的，是逻辑学当中经典的“动物过河”问题，有网友发现，大模型对此类问题表现得很不擅长。
甚至有人观察到，几个不同的模型都给出了一致的（错误）答案，让人怀疑他们是不是用了相同的训练数据。
针对这项测试，网友还定义了一个新的名词叫“劣效比率”（crapness ratio），让LeCun打趣说到，一项新的“Benchmark”诞生了。
“模见模愁”的动物过河首先来看一下什么是“动物过河”问题，这是逻辑学当中的一道经典题目。
问题的原型是这样的：
农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。
在这个问题当中，农夫需要七次（往返视为两次）过河——先把羊运过去，然后空船返回，再把狼运过河，带回羊，然后运送白菜，再空船返回，最后运送羊。
而劣效比率的定义，就是模型给出的运送次数与实际最少所需次数的比值。

原文链接：大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark