一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

AIGC动态5个月前发布 量子位
8 0 0

一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

AIGC动态欢迎阅读

原标题:一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%
关键字:模型,团队,任务,自然语言,字节
文章来源:量子位
内容字数:2772字

内容摘要:


梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI“预测下一个token”被认为是大模型的基本范式,一次预测多个tokens又会怎样?
Meta AI法国团队推出“基于多token预测的更快&更好大模型”。
多token预测模型,在编程类任务上表现尤其突出。
与单token预测相比,13B参数模型在HumanEval上多解决了12%的问题,在MBPP上多解决了17%。
小型算法推理任务上,多token预测也在分布外泛化方面带来了令人印象深刻的收益。
不过在自然语言任务上,多token预测方法并不能显著提高7B模型在数学选择题上的表现了。
另外一个好处是,即使batch size较大,使用4-token预测训练的模型,推理速度也可提高3倍。
多token预测更适合编程具体来说,团队设计了一种新的多token预测架构,通过n个独立的输出头并行预测n个未来token。
使用大量文本数据进行模型训练,包括代码和自然语言数据集。
再通过实验比较多token预测和单token预测在多个下游任务上的性能。
为啥多token预测在编程任务和小型算法推理任务上提升更明显?
团队猜测可能有两个原因:


原文链接:一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...