讨论下一个token预测时，我们可能正在走进陷阱

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：讨论下一个token预测时，我们可能正在走进陷阱
关键字：模型,本文,问题,任务,作者
文章来源：机器之心
内容字数：8852字

内容摘要：

机器之心报道
编辑：赵阳自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后，这一概念逐渐成为现代语言模型的核心部分。最近，围绕下一个 token 预测的讨论日趋激烈。
然而，越来越多的人认为，以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺术家」，并不能真正模拟人类思维。人类会在执行计划之前在头脑中进行细致的想象、策划和回溯。遗憾的是，这种策略并没有明确地构建在当今语言模型的框架中。对此，部分学者如 LeCun，在其论文中已有所评判。
在一篇论文中，来自苏黎世联邦理工学院的 Gregor Bachmann 和谷歌研究院的 Vaishnavh Nagarajan 对这个话题进行了深入分析，指出了当前争论没有关注到的本质问题：即没有将训练阶段的 teacher forcing 模式和推理阶段的自回归模式加以区分。论文标题：THE PITFALLS OF NEXT-TOKEN PREDICTION
论文地址：https://arxiv.org/pdf/2403.06963.pdf
项目地址：https://github.com/gregorbachman

原文链接：讨论下一个token预测时，我们可能正在走进陷阱