AIGC动态欢迎阅读
原标题:大模型测试题爆火,GPT-4和Claude3都跪了,LeCun转发:新Benchmark
关键字:模型,腾讯,农夫,问题,狐狸
文章来源:量子位
内容字数:0字
内容摘要:
克雷西 发自 凹非寺量子位 | 公众号 QbitAI一项新的“大模型Benchmark”在推特上爆火,LeCun也点赞转发了!
而且无论是GPT-4还是Claude 3,面对它都如同被夺了魂,无法给出正确答案。
难倒一众大模型的,是逻辑学当中经典的“动物过河”问题,有网友发现,大模型对此类问题表现得很不擅长。
甚至有人观察到,几个不同的模型都给出了一致的(错误)答案,让人怀疑他们是不是用了相同的训练数据。
针对这项测试,网友还定义了一个新的名词叫“劣效比率”(crapness ratio),让LeCun打趣说到,一项新的“Benchmark”诞生了。
“模见模愁”的动物过河首先来看一下什么是“动物过河”问题,这是逻辑学当中的一道经典题目。
问题的原型是这样的:
农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。
在这个问题当中,农夫需要七次(往返视为两次)过河——先把羊运过去,然后空船返回,再把狼运过河,带回羊,然后运送白菜,再空船返回,最后运送羊。
而劣效比率的定义,就是模型给出的运送次数与实际最少所需次数的比值。
原文链接:大模型测试题爆火,GPT-4和Claude3都跪了,LeCun转发:新Benchmark
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...