预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队|代码已开源

AIGC动态10个月前发布 量子位
119 0 0

预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队|代码已开源

AIGC动态欢迎阅读

原标题:预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队|代码已开源

关键字:模型,步骤,小羊,算法,作者

文章来源:量子位

内容字数:4604字

内容摘要:丰色 发自 凹非寺量子位 | 公众号QbitAI小羊驼团队的新研究火了。他们开发了一种新的解码算法,可以让模型预测100个token数的速度提高1.5-2.3倍,进而加速LLM推理。比如这是同一个模型(LLaMa-2-Chat 7B)面对同一个用户提问(苏格拉底采用了哪些方法来挑战他那个时代的主流思想?)时输出回答的速度:左边为原算法,耗时18.12s,每秒约35个token;右边为该算法,耗时10.4s,每秒约60个token,明显快了一大截。简单来说,这是一种并行解码算法,名叫“Lookahead Decoding”(前向解码)。它主要利用雅可比(Jacobi)迭代法首次打破自回归解码中的顺序依赖性(众所周知,当下大模型基本都是基于自回归的Transformer)。由此无需草稿模型(draft model)或数据存储,就可以减少解码步骤,加速LLM推理。目前,作者已给出了与huggin…

原文链接:点此阅读原文:预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队|代码已开源

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...