Karpathy新视频又火了：从头构建GPT Tokenizer

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：Karpathy新视频又火了：从头构建GPT Tokenizer
关键字：分词,腾讯,模型,字节,算法
文章来源：量子位
内容字数：5240字

内容摘要：

丰色鱼羊发自凹非寺量子位 | 公众号 QbitAI技术大神卡帕西离职OpenAI以后，营业可谓相当积极啊。
这不，前脚新项目刚上线，后脚全新的教学视频又给大伙整出来了：
这次，是手把手教咱构建一个GPT Tokenizer（分词器），还是熟悉的时长（足足2小时13分钟）。
Ps. 上次讲课还是俩月前的大模型科普。
所谓“卡帕西出手，必属精品”，大伙火速码码码：
今晚的约会取消，卡帕西来了我要去上课（狗头）
再说一遍，付费都买不到的这样高质量的课程，冲。
具体都有哪些干货？
“太长不看版”已为大家准备好。
为什么要关注Tokenizer如大神介绍：
Tokenizer即分词器是大语言模型pipeline中一个完全的阶段。
它们有自己的训练集、算法（比如BPE，字节对编码），并在训练完成后实现两个功能：从字符串编码到token，以及从token解码回字符串。
为什么我们需要关注它？
卡帕西指出：
因为LLM中的很多奇怪行为和问题都可以追溯到它。
比如：
为什么大模型不能处理简单的字符串处理任务，例如反转？
为什么大模型在非英语语言任务方面的性能更差？
为什么大模型不擅长简单的算术