AIGC动态欢迎阅读
内容摘要:
原文:https://zhuanlan.zhihu.com/p/695307425
在现有Transformer作为大模型框架下,万物tokenizer将会是一个必然的趋势!
01为什么我们需要Token化?tokenizer 实质是对样本进行不同级别的语义分割,使得模型能够更好把握样本的层次结构,捕捉更多粒度的信息。其核心是将”非结构化的数据”转化为”结构化的数据”,结构化数据就可以转化为数学问题。对于Transformer来说,如果一个样本对应的token数量越多,其计算量也就越大,但当token数量越少时,所传入的信息就越少。因此,准确的设计tokenlearner对于 transformer的意义巨大[1],即要使得token的数量能够尽可能的少,又要使得其能够保留尽可能‘好’的样本特征。
token是主干网络处理的相对独立的最小基本单元, 而对于不同的语义级别与应用场景,其所需要的输入数据的信息维度也应该不同,所以应该根据不同的语义级别,设置不同级别的、多梯度的tokenizer,从而能够捕捉到不同粒度的信息,为模型与主干网络提供更丰富的语义信息。例如VQVAE-2 [2]是
原文链接:关于Tokenizer的一些感想
联系作者
文章来源:算法邦
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...