「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？所有LLM致命缺点曝光

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？所有LLM致命缺点曝光
关键字：模型,人类,问题,常识,数字
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：Aeneas 好困
【新智元导读】13.8和13.11哪个大？这个问题不光难倒了部分人类，还让一票大模型折戟。AI如今都能奥数题了，但简单的常识问题对它们依然难如登天。其实，无论是比大小，还是卷心菜难题，都揭示了LLM在token预测上的一个重大缺陷。13.8和13.11哪个大？
这个问题，居然难倒了一票人类。
前两天，某知名综艺再次喜提热搜。
只不过，这次是因为有一堆网友提出质疑，认为13.11%应该比13.8%大。
是只有人类这么蠢吗？
AI2的研究员林禹臣发现这个现象后，用大模型试了一把，结果出人意料——
AI居然也不行？
GPT-4o斩钉截铁地表示：13.11比13.8大。理由如下：
虽然13.8看起来更大，因为它小数点后的数字更少，但13.11实际上更大。这是因为13.8相当于13.80，而13.80小于13.11。
对此，林禹臣po文表示，AI模型在处理复杂问题方面变得越来越强大（比如越来越会做数学奥赛题），但一些常识性问题对于它们来说仍然非常困难。
正如Yejin Choi此前所提出的，AI聪明得令人难以置信，但同时也会蠢得令人震惊。
AI之所以在

原文链接：「13.11＞13.8」冲上热搜，一道题让人类AI集体降智？所有LLM致命缺点曝光