next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+
关键字：模型,研究人员,任务,性能,方法
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】研究人员提出了一种新的大型语言模型训练方法，通过一次性预测多个未来tokens来提高样本效率和模型性能，在代码和自然语言生成任务上均表现出显著优势，且不会增加训练时间，推理速度还能提升至三倍。当前，大型语言模型，例如GPT和Llama，主要是根据「前文的单词序列」对「下一个token」进行预测的方式来训练。
但你有没有想过一个问题，为什么不对后文的tokens同时进行预测呢？
最近，Meta、巴黎高科路桥大学、巴黎萨克雷大学的研究人员就联合提出了一种新的训练方法，即一次性预测多个未来tokens，可以提高模型的样本效率。论文链接：https://arxiv.org/pdf/2404.19737
具体来说，在训练语料库的每一个位置，要求模型使用n个的输出头网络来预测紧随其后的n个token，其中所有输出头都基于同一个模型主干。
研究人员将多token预测视作是一种辅助训练任务，实验发现该方法不仅能够提升模型在各种下游任务上的表现，而且不会增加训练时间，对代码生成和自然语言生成任务都是有益的。
随着模型尺寸的增大，该方法的优势变得更加明显，尤其是

原文链接：next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+