AIGC动态欢迎阅读
原标题:菲尔兹奖得主亲测GPT-4o,经典过河难题失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
关键字:农夫,模型,测试,问题,比率
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:桃子 乔杨
【新智元导读】LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现,就连Claude 3.5也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上,如今所有的LLM都失败了!
几天前,菲尔兹奖得主、剑桥大学研究主任Timothy Gowers直接拿GPT-4o开刀,去解决动物过河难题。
在此,他给出了一个新的基准——废话比率(crapness ratio),即LLM给出的总答案与正确答案之间的比率。
经过测试,Gowers发现大模型的废话比率可以达到5倍。
一开始,他先给出了一个农民带2只鸡过河,一只船只能容纳一个人和2个动物,那么农夫带着两只鸡渡河所需的最少渡河次数是多少?
别说成年人了,就拿低幼小孩子来说,一听完题目,就立马给出正确的答案。
搞笑的是,ChatGPT的回答分解了5个步骤,让人看着极其愚蠢荒谬。
第一次渡河:农夫带着两只鸡一起过河;现状:农夫和两只鸡在河对岸。
第二次渡河:农夫把两只鸡留在对岸,然后独自返回;现状:农夫在起始岸
原文链接:菲尔兹奖得主亲测GPT-4o,经典过河难题失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...