关于Tokenizer的一些感想

AIGC动态1年前 (2024)发布算法邦

关于Tokenizer的一些感想

AIGC动态欢迎阅读

原标题：关于Tokenizer的一些感想
关键字：粒度,分词,语义,信息,切分
文章来源：算法邦
内容字数：0字

内容摘要：

原文：https://zhuanlan.zhihu.com/p/695307425
在现有Transformer作为大模型框架下，万物tokenizer将会是一个必然的趋势！
01为什么我们需要Token化？tokenizer 实质是对样本进行不同级别的语义分割，使得模型能够更好把握样本的层次结构，捕捉更多粒度的信息。其核心是将”非结构化的数据”转化为”结构化的数据”，结构化数据就可以转化为数学问题。对于Transformer来说，如果一个样本对应的token数量越多，其计算量也就越大，但当token数量越少时，所传入的信息就越少。因此，准确的设计tokenlearner对于 transformer的意义巨大[1]，即要使得token的数量能够尽可能的少，又要使得其能够保留尽可能‘好’的样本特征。
token是主干网络处理的相对的最小基本单元，而对于不同的语义级别与应用场景，其所需要的输入数据的信息维度也应该不同，所以应该根据不同的语义级别，设置不同级别的、多梯度的tokenizer，从而能够捕捉到不同粒度的信息，为模型与主干网络提供更丰富的语义信息。例如VQVAE-2 [2]是

原文链接：关于Tokenizer的一些感想