讨论下一个token预测时,我们可能正在走进陷阱

AIGC动态8个月前发布 机器之心
10 0 0

讨论下一个token预测时,我们可能正在走进陷阱

AIGC动态欢迎阅读

原标题:讨论下一个token预测时,我们可能正在走进陷阱
关键字:模型,本文,问题,任务,作者
文章来源:机器之心
内容字数:8852字

内容摘要:


机器之心报道
编辑:赵阳自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。
然而,越来越多的人认为,以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺术家」,并不能真正模拟人类思维。人类会在执行计划之前在头脑中进行细致的想象、策划和回溯。遗憾的是,这种策略并没有明确地构建在当今语言模型的框架中。对此,部分学者如 LeCun,在其论文中已有所评判。
在一篇论文中,来自苏黎世联邦理工学院的 Gregor Bachmann 和谷歌研究院的 Vaishnavh Nagarajan 对这个话题进行了深入分析,指出了当前争论没有关注到的本质问题:即没有将训练阶段的 teacher forcing 模式和推理阶段的自回归模式加以区分。论文标题:THE PITFALLS OF NEXT-TOKEN PREDICTION
论文地址:https://arxiv.org/pdf/2403.06963.pdf
项目地址:https://github.com/gregorbachman


原文链接:讨论下一个token预测时,我们可能正在走进陷阱

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...