「13.11>13.8」冲上热搜,一道题让人类AI集体降智?所有LLM致命缺点曝光

AIGC动态2个月前发布 新智元
13 0 0

「13.11>13.8」冲上热搜,一道题让人类AI集体降智?所有LLM致命缺点曝光

AIGC动态欢迎阅读

原标题:「13.11>13.8」冲上热搜,一道题让人类AI集体降智?所有LLM致命缺点曝光
关键字:模型,人类,问题,常识,数字
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:Aeneas 好困
【新智元导读】13.8和13.11哪个大?这个问题不光难倒了部分人类,还让一票大模型折戟。AI如今都能做AI奥数题了,但简单的常识问题对它们依然难如登天。其实,无论是比大小,还是卷心菜难题,都揭示了LLM在token预测上的一个重大缺陷。13.8和13.11哪个大?
这个问题,居然难倒了一票人类。
前两天,某知名综艺再次喜提热搜。
只不过,这次是因为有一堆网友提出质疑,认为13.11%应该比13.8%大。
是只有人类这么蠢吗?
AI2的研究员林禹臣发现这个现象后,用大模型试了一把,结果出人意料——
AI居然也不行?
GPT-4o斩钉截铁地表示:13.11比13.8大。理由如下:
虽然13.8看起来更大,因为它小数点后的数字更少,但13.11实际上更大。这是因为13.8相当于13.80,而13.80小于13.11。
对此,林禹臣po文表示,AI模型在处理复杂问题方面变得越来越强大(比如越来越会做数学奥赛题),但一些常识性问题对于它们来说仍然非常困难。
正如Yejin Choi此前所提出的,AI聪明得令人难以置信,但同时也会蠢得令人震惊。
AI之所以在


原文链接:「13.11>13.8」冲上热搜,一道题让人类AI集体降智?所有LLM致命缺点曝光

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...