从2019年到现在，是时候重新审视Tokenization了

Tokenization如何影响LLM中算术？不妨看看HuggingFace的解释

原标题：从2019年到现在，是时候重新审视Tokenization了
文章来源：机器之心
内容字数：6500字

HuggingFace：Tokenization如何影响大模型的数学能力

本文总结了HuggingFace一篇关于Tokenization如何影响大模型数学能力，特别是算术能力的博客文章。文章指出，2019年问世的GPT-2使用BPE算法进行分词，这种方法至今仍很常见，但并非最优。大模型在处理诸如“9.9和9.11哪个大”这样的简单算术题时经常出错，这与Tokenization策略密切相关。

1. 不同模型的Tokenization策略

文章比较了不同模型的Tokenization方法及其对数字处理的影响：GPT-2使用BPE算法，导致数字编码方式不一致；Llama系列对数字进行了显著调整，Llama和Llama 2将所有数字拆分为单个数字（0-9）；Deepseek-V2也采用类似的单位数Tokenizer；Llama 3则将数字Token化为三位数。

2. 从右到左(R2L) Tokenization 的优势

文章介绍了一种新的范式：从右到左(R2L) Tokenization。与传统的从左到右(L2R)方法不同，R2L方法从文本末尾开始分词，这被证明对某些算术运算有益，因为它可以防止操作数错位。一些闭源模型，例如传闻中的Claude，也使用了这种方法。文章以3789 + 8791为例，说明了L2R和R2L方法在处理数字时的差异，R2L方法可以更好地对齐操作数，避免错位带来的误差。

3. 实验结果与比较

研究人员进行了实验，比较了GPT-2的BPE tokenizer、Llama 3的三位数tokenizer和Deepseek的单位数tokenizer的性能。结果显示，在简单问题上差异不明显，但随着问题复杂性增加，单位数tokenizer表现最好，对输入数据长度变化更鲁棒，能够更好地捕捉复杂模式。此外，浮点数和整数之间的性能差距在所有tokenizer中相似。

实验还发现，三位数R2L tokenizer优于标准三位数L2R tokenizer。使用R2L token数据训练的模型取得了显著改进（乘法除外）。纯BPE tokenizer在使用R2L token化时性能不一致，这可能是因为其数字分组方式缺乏结构。

在基于单词的问题上，单位数和三位数tokenizer通常优于基于BPE的tokenizer。

4. Llama 3 R2L推理测试

文章测试了Llama 3 8B Instruct模型在推理期间使用R2L tokenization时的表现，无需重新训练。结果显示，对于加法运算，在没有进位的情况下，数字个数为3的倍数时，L2R和R2L的结果相同；对于有进位的加法，R2L方法表现更好。减法、乘法和除法则没有显著差异。

5. 结论与建议

文章总结指出，Tokenization对语言模型的算术性能有显著影响。如果必须使用最多三位数的tokenizer，建议使用R2L方向；如果已有模型使用L2R，可以通过使用R2L来提升数学性能。最重要的是，对于算术运算，单位数tokenization性能明显优于其他方法。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # AI Tokenization安全 # AI数据Tokenization # Tokenization应用于AI # Tokenization赋能AI模型训练 # 去中心化AI Tokenization

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

从2019年到现在，是时候重新审视Tokenization了

Tokenization如何影响LLM中算术？不妨看看HuggingFace的解释

HuggingFace：Tokenization如何影响大模型的数学能力

1. 不同模型的Tokenization策略

2. 从右到左(R2L) Tokenization 的优势

3. 实验结果与比较

4. Llama 3 R2L推理测试

5. 结论与建议

联系作者

复旦首发“AI禁令”：禁止在论文关键环节使用AI工具

全网都在扒的DeepSeek团队，是清北应届生撑起一片天

相关文章

暂无评论

ChatGPT

玩虚拟模特？