菲尔兹奖得主亲测GPT-4o，经典过河难题失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

AIGC动态2年前 (2024)发布新智元

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM

AIGC动态欢迎阅读

原标题：菲尔兹奖得主亲测GPT-4o，经典过河难题失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM
关键字：农夫,模型,测试,问题,比率
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：桃子乔杨
【新智元导读】LLM能否解决「狼-山羊-卷心菜」经典过河难题？最近，菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程，模型在最简单的题目上竟然做错了，甚至网友们发现，就连Claude 3.5也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上，如今所有的LLM都失败了！
几天前，菲尔兹奖得主、剑桥大学研究主任Timothy Gowers直接拿GPT-4o开刀，去解决动物过河难题。
在此，他给出了一个新的基准——废话比率（crapness ratio），即LLM给出的总答案与正确答案之间的比率。
经过测试，Gowers发现大模型的废话比率可以达到5倍。
一开始，他先给出了一个农民带2只鸡过河，一只船只能容纳一个人和2个动物，那么农夫带着两只鸡渡河所需的最少渡河次数是多少？
别说成年人了，就拿低幼小孩子来说，一听完题目，就立马给出正确的答案。
搞笑的是，ChatGPT的回答分解了5个步骤，让人看着极其愚蠢荒谬。
第一次渡河：农夫带着两只鸡一起过河；现状：农夫和两只鸡在河对岸。
第二次渡河：农夫把两只鸡留在对岸，然后独自返回；现状：农夫在起始岸

原文链接：菲尔兹奖得主亲测GPT-4o，经典过河难题失败！最强Claude 3.5回答离谱，LeCun嘲讽LLM