AIGC动态欢迎阅读
原标题:预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队|代码已开源
文章来源:量子位
内容字数:4604字
内容摘要:丰色 发自 凹非寺量子位 | 公众号QbitAI小羊驼团队的新研究火了。他们开发了一种新的解码算法,可以让模型预测100个token数的速度提高1.5-2.3倍,进而加速LLM推理。比如这是同一个模型(LLaMa-2-Chat 7B)面对同一个用户提问(苏格拉底采用了哪些方法来挑战他那个时代的主流思想?)时输出回答的速度:左边为原算法,耗时18.12s,每秒约35个token;右边为该算法,耗时10.4s,每秒约60个token,明显快了一大截。简单来说,这是一种并行解码算法,名叫“Lookahead Decoding”(前向解码)。它主要利用雅可比(Jacobi)迭代法首次打破自回归解码中的顺序依赖性(众所周知,当下大模型基本都是基于自回归的Transformer)。由此无需草稿模型(draft model)或数据存储,就可以减少解码步骤,加速LLM推理。目前,作者已给出了与huggin…
原文链接:点此阅读原文:预测token速度翻番!Transformer新解码算法火了,来自小羊驼团队|代码已开源
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...