关于Tokenizer的一些感想

AIGC动态4个月前发布 算法邦
9 0 0

关于Tokenizer的一些感想

AIGC动态欢迎阅读

原标题:关于Tokenizer的一些感想
关键字:粒度,分词,语义,信息,切分
文章来源:算法邦
内容字数:0字

内容摘要:


原文:https://zhuanlan.zhihu.com/p/695307425
在现有Transformer作为大模型框架下,万物tokenizer将会是一个必然的趋势!
01为什么我们需要Token化?tokenizer 实质是对样本进行不同级别的语义分割,使得模型能够更好把握样本的层次结构,捕捉更多粒度的信息。其核心是将”非结构化的数据”转化为”结构化的数据”,结构化数据就可以转化为数学问题。对于Transformer来说,如果一个样本对应的token数量越多,其计算量也就越大,但当token数量越少时,所传入的信息就越少。因此,准确的设计tokenlearner对于 transformer的意义巨大[1],即要使得token的数量能够尽可能的少,又要使得其能够保留尽可能‘好’的样本特征。
token是主干网络处理的相对独立的最小基本单元, 而对于不同的语义级别与应用场景,其所需要的输入数据的信息维度也应该不同,所以应该根据不同的语义级别,设置不同级别的、多梯度的tokenizer,从而能够捕捉到不同粒度的信息,为模型与主干网络提供更丰富的语义信息。例如VQVAE-2 [2]是


原文链接:关于Tokenizer的一些感想

联系作者

文章来源:算法邦
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...