Karpathy新视频又火了:从头构建GPT Tokenizer

AIGC动态3个月前发布 量子位
13 0 0

Karpathy新视频又火了:从头构建GPT Tokenizer

AIGC动态欢迎阅读

原标题:Karpathy新视频又火了:从头构建GPT Tokenizer
关键字:分词,腾讯,模型,字节,算法
文章来源:量子位
内容字数:5240字

内容摘要:


丰色 鱼羊 发自 凹非寺量子位 | 公众号 QbitAI技术大神卡帕西离职OpenAI以后,营业可谓相当积极啊。
这不,前脚新项目刚上线,后脚全新的教学视频又给大伙整出来了:
这次,是手把手教咱构建一个GPT Tokenizer(分词器),还是熟悉的时长(足足2小时13分钟)。
Ps. 上次讲课还是俩月前的大模型科普。
所谓“卡帕西出手,必属精品”,大伙火速码码码:
今晚的约会取消,卡帕西来了我要去上课(狗头)
再说一遍,付费都买不到的这样高质量的课程,冲。
具体都有哪些干货?
“太长不看版”已为大家准备好。
为什么要关注Tokenizer如大神介绍:
Tokenizer即分词器是大语言模型pipeline中一个完全独立的阶段。
它们有自己的训练集、算法(比如BPE,字节对编码),并在训练完成后实现两个功能:从字符串编码到token,以及从token解码回字符串。
为什么我们需要关注它?
卡帕西指出:
因为LLM中的很多奇怪行为和问题都可以追溯到它。
比如:
为什么大模型不能处理简单的字符串处理任务,例如反转?
为什么大模型在非英语语言任务方面的性能更差?
为什么大模型不擅长简单的算术


原文链接:Karpathy新视频又火了:从头构建GPT Tokenizer

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...