Tokenization如何影响LLM中算术?不妨看看HuggingFace的解释
原标题:从2019年到现在,是时候重新审视Tokenization了
文章来源:机器之心
内容字数:6500字
HuggingFace:Tokenization如何影响大模型的数学能力
本文总结了HuggingFace一篇关于Tokenization如何影响大模型数学能力,特别是算术能力的博客文章。文章指出,2019年问世的GPT-2使用BPE算法进行分词,这种方法至今仍很常见,但并非最优。大模型在处理诸如“9.9和9.11哪个大”这样的简单算术题时经常出错,这与Tokenization策略密切相关。
1. 不同模型的Tokenization策略
文章比较了不同模型的Tokenization方法及其对数字处理的影响:GPT-2使用BPE算法,导致数字编码方式不一致;Llama系列对数字进行了显著调整,Llama和Llama 2将所有数字拆分为单个数字(0-9);Deepseek-V2也采用类似的单位数Tokenizer;Llama 3则将数字Token化为三位数。
2. 从右到左(R2L) Tokenization 的优势
文章介绍了一种新的范式:从右到左(R2L) Tokenization。与传统的从左到右(L2R)方法不同,R2L方法从文本末尾开始分词,这被证明对某些算术运算有益,因为它可以防止操作数错位。一些闭源模型,例如传闻中的Claude,也使用了这种方法。文章以3789 + 8791为例,说明了L2R和R2L方法在处理数字时的差异,R2L方法可以更好地对齐操作数,避免错位带来的误差。
3. 实验结果与比较
研究人员进行了实验,比较了GPT-2的BPE tokenizer、Llama 3的三位数tokenizer和Deepseek的单位数tokenizer的性能。结果显示,在简单问题上差异不明显,但随着问题复杂性增加,单位数tokenizer表现最好,对输入数据长度变化更鲁棒,能够更好地捕捉复杂模式。此外,浮点数和整数之间的性能差距在所有tokenizer中相似。
实验还发现,三位数R2L tokenizer优于标准三位数L2R tokenizer。使用R2L token数据训练的模型取得了显著改进(乘法除外)。纯BPE tokenizer在使用R2L token化时性能不一致,这可能是因为其数字分组方式缺乏结构。
在基于单词的问题上,单位数和三位数tokenizer通常优于基于BPE的tokenizer。
4. Llama 3 R2L推理测试
文章测试了Llama 3 8B Instruct模型在推理期间使用R2L tokenization时的表现,无需重新训练。结果显示,对于加法运算,在没有进位的情况下,数字个数为3的倍数时,L2R和R2L的结果相同;对于有进位的加法,R2L方法表现更好。减法、乘法和除法则没有显著差异。
5. 结论与建议
文章总结指出,Tokenization对语言模型的算术性能有显著影响。如果必须使用最多三位数的tokenizer,建议使用R2L方向;如果已有模型使用L2R,可以通过使用R2L来提升数学性能。最重要的是,对于算术运算,单位数tokenization性能明显优于其他方法。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台