苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了

苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了

AIGC动态欢迎阅读

原标题:苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
关键字:缓存,模型,阶段,步骤,准确度
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
机器之心编辑部偷懒才能更好地工作。Llama 3.1 刚刚发布,你是否已经尝试了呢?就算你的个人计算机是最近的顶尖配置,运行其中最小的 8B 版本可能也依然会有明显延迟。为了提升模型的推理效率,研究者想出了多种多样的方法,但其中很多都会让模型牺牲一些准确度。
近日,苹果和 Meta AI 的一个研究团队提出了一种新方法,可在保证准确度不明显下降的同时,将 Llama 2 预填充阶段的推理速度提升到原来的 2 倍以上,这或许能为 Llama 3.1 的加速提供一些启发。他们把这种方法称为 LazyLLM,即懒惰大型语言模型。论文标题:LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
论文地址:https://arxiv.org/abs/2407.14057
那么他们是怎么让 LLM 偷懒的呢?要理解他们的方法,我们首先需要知道标准的基于 prompt 的 LLM 推理过程是怎样的。简单来说,该过程分为两个阶段:预填充和解码,如图 1 所示。在预填充阶段,模型计算和保存 prompt


原文链接:苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...