一次预测多个token，Meta新模型推理加速3倍，编程任务提高17%

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：一次预测多个token，Meta新模型推理加速3倍，编程任务提高17%
关键字：模型,团队,任务,自然语言,字节
文章来源：量子位
内容字数：2772字

内容摘要：

梦晨西风发自凹非寺量子位 | 公众号 QbitAI“预测下一个token”被认为是大模型的基本范式，一次预测多个tokens又会怎样？
Meta AI法国团队推出“基于多token预测的更快&更好大模型”。
多token预测模型，在编程类任务上表现尤其突出。
与单token预测相比，13B参数模型在HumanEval上多解决了12%的问题，在MBPP上多解决了17%。
小型算法推理任务上，多token预测也在分布外泛化方面带来了令人印象深刻的收益。
不过在自然语言任务上，多token预测方法并不能显著提高7B模型在数学选择题上的表现了。
另外一个好处是，即使batch size较大，使用4-token预测训练的模型，推理速度也可提高3倍。
多token预测更适合编程具体来说，团队设计了一种新的多token预测架构，通过n个的输出头并行预测n个未来token。
使用大量文本数据进行模型训练，包括代码和自然语言数据集。
再通过实验比较多token预测和单token预测在多个下游任务上的性能。
为啥多token预测在编程任务和小型算法推理任务上提升更明显？
团队猜测可能有两个原因:

原文链接：一次预测多个token，Meta新模型推理加速3倍，编程任务提高17%