AIGC动态欢迎阅读
原标题:next-token被淘汰!Meta实测「多token」训练方法,推理提速3倍,性能大涨10%+
关键字:模型,研究人员,任务,性能,方法
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:LRS
【新智元导读】研究人员提出了一种新的大型语言模型训练方法,通过一次性预测多个未来tokens来提高样本效率和模型性能,在代码和自然语言生成任务上均表现出显著优势,且不会增加训练时间,推理速度还能提升至三倍。当前,大型语言模型,例如GPT和Llama,主要是根据「前文的单词序列」对「下一个token」进行预测的方式来训练。
但你有没有想过一个问题,为什么不对后文的tokens同时进行预测呢?
最近,Meta、巴黎高科路桥大学、巴黎萨克雷大学的研究人员就联合提出了一种新的训练方法,即一次性预测多个未来tokens,可以提高模型的样本效率。论文链接:https://arxiv.org/pdf/2404.19737
具体来说,在训练语料库的每一个位置,要求模型使用n个的输出头网络来预测紧随其后的n个token,其中所有输出头都基于同一个模型主干。
研究人员将多token预测视作是一种辅助训练任务,实验发现该方法不仅能够提升模型在各种下游任务上的表现,而且不会增加训练时间,对代码生成和自然语言生成任务都是有益的。
随着模型尺寸的增大,该方法的优势变得更加明显,尤其是
原文链接:next-token被淘汰!Meta实测「多token」训练方法,推理提速3倍,性能大涨10%+
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...