Karpathy:用表情包解释一下,为什么AI数不清Strawberry几个 r?
AIGC动态欢迎阅读
原标题:Karpathy:用表情包解释一下,为什么AI数不清Strawberry几个 r?
关键字:模型,问题,数据,知识,能力
文章来源:Founder Park
内容字数:0字
内容摘要:
还记得这些天大模型被揪出来的低级错误吗?
不知道 13.11 和 13.8哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。
嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么?大家普遍认为,是 Token 化(Tokenization)的锅。
AI大神Karpathy按照程序被设计的表示方法,用表情包展现了大模型眼中的文字世界,「How many letters ‘r’ in the word’strawberry’?」在 LLM 看来是:01Karpathy:用表情包模拟LLM的文字世界在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 token 指的未必是词,也可以是标点符号、数字或者某个单词的一部分。比如,在 OpenAI 提供的一个工具中,我们可以看到,Strawberry 这个单词就被分为了 Str-aw-berry 三个 token。在这种情况下,你让 AI 大模型数单词里有几个 r,属实是为难它。
除了草莓 (Strawber
原文链接:Karpathy:用表情包解释一下,为什么AI数不清Strawberry几个 r?
联系作者
文章来源:Founder Park
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...