预测token速度翻番！Transformer新解码算法火了，来自小羊驼团队｜代码已开源

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：预测token速度翻番！Transformer新解码算法火了，来自小羊驼团队｜代码已开源

关键字：模型,步骤,小羊,算法,作者

文章来源：量子位

内容字数：4604字

内容摘要：丰色发自凹非寺量子位 | 公众号QbitAI小羊驼团队的新研究火了。他们开发了一种新的解码算法，可以让模型预测100个token数的速度提高1.5-2.3倍，进而加速LLM推理。比如这是同一个模型（LLaMa-2-Chat 7B）面对同一个用户提问（苏格拉底采用了哪些方法来挑战他那个时代的主流思想？）时输出回答的速度：左边为原算法，耗时18.12s，每秒约35个token；右边为该算法，耗时10.4s，每秒约60个token，明显快了一大截。简单来说，这是一种并行解码算法，名叫“Lookahead Decoding”（前向解码）。它主要利用雅可比（Jacobi）迭代法首次打破自回归解码中的顺序依赖性（众所周知，当下大模型基本都是基于自回归的Transformer）。由此无需草稿模型（draft model）或数据存储，就可以减少解码步骤，加速LLM推理。目前，作者已给出了与huggin…

原文链接：点此阅读原文：预测token速度翻番！Transformer新解码算法火了，来自小羊驼团队｜代码已开源