谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题
关键字：词汇量,模型,序列,维度,长度
文章来源：量子位
内容字数：0字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI大模型做奥赛题游刃有余，简单的数数却屡屡翻车的原因找到了。
谷歌的一项新研究，发现大模型不会数数的原因，并不是简单的tokenizer所致，而是没有足够的空间来存储用于计数的向量。
数出一段话中某个单词出现的次数，这样简单的任务可以难倒许多大模型，GPT-4o、Claude 3.5也无法幸免。
如果再进一步，想要找到出现频率最高的一个词，更是难如登天，即便能蒙对给出的具体数量也是错的。
有人认为是词汇的token化导致了大模型看到的“词”和我们的看法不一致，但论文表明，实际情况并不是这么简单。
想数清单词，嵌入维度要够大Transformer的计数能力与其嵌入维度d和词汇量m（指词汇表中词的数量，非序列长度）的关系密切相关。
详细的原因，就涉及到了Transformer统计词频时的机制。
Transformer通过一种特殊的嵌入方式，利用嵌入空间的线性结构，巧妙地将计数问题转化为了向量加法。
具体说是将每个词映射到一个独特的正交向量上，在这种表示下，词频可以通过对这些正交向量求和来简单地计算。
然而，这种机制的局限性在于，它要求词汇表

原文链接：谷歌揭秘大模型不会数r原因：嵌入维度是关键，不止分词器问题