大神Karpathy强推，分词领域必读：自动钓鱼让大模型“发疯”的token，来自Transformer作者创业公司

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：大神Karpathy强推，分词领域必读：自动钓鱼让大模型“发疯”的token，来自Transformer作者创业公司
关键字：模型,词汇表,数据,分词,研究人员
文章来源：量子位
内容字数：3263字

内容摘要：

鱼羊发自凹非寺量子位 | 公众号 QbitAI关于大模型分词（tokenization），大神Karpathy刚刚推荐了一篇必读新论文。
主题是：自动检测大模型中那些会导致“故障”的token。
简单来说，由于大模型tokenizer的创建和模型训练是分开的，可能导致某些token在训练中很少、甚至完全没出现过。这些“训练不足”（under-trained）的token会导致模型产生异常输出。
最经典的例子，就是SolidGoldMagikarp——
这个单词一度让ChatGPT“胡言乱语”。只要prompt里包含这个词，ChatGPT就开始文不对题，生成一些混乱的输出：
现在，来自Cohere的研究人员针对这个问题，提出检测“故障”token的有效方法，他们还发现：在多个主流开源大语言模型上，包括Llama系列、Mistral系列在内，训练不足的token都在不同程度上普遍存在。
p.s. Cohere是Transformer最年轻作者Aidan Gomez创办的公司，此前推出了Command R系列开源大模型。去年6月，该公司估值达到了22亿美元。
自动检测LLM中训练不足的t

原文链接：大神Karpathy强推，分词领域必读：自动钓鱼让大模型“发疯”的token，来自Transformer作者创业公司