AIGC动态欢迎阅读
原标题:2.5%KV缓存保持大模型90%性能,大模型金字塔式信息汇聚模式探秘|开源
关键字:缓存,注意力,模型,性能,任务
文章来源:量子位
内容字数:0字
内容摘要:
蔡泽凡 投稿量子位 | 公众号 QbitAI用KV缓存加速大模型的显存瓶颈,终于迎来突破。
北大、威斯康辛-麦迪逊、微软等联合团队提出了全新的缓存分配方案,只用2.5%的KV cache,就能保持大模型90%的性能。
这下再也不用担心KV占用的显存容量过高,导致显卡不够用了。
该方法名为PyramidKV,顾名思义,在KV缓存压缩的过程中融入了金字塔型的信息汇聚方式。
在内存受限的情况下,PyramidKV表现非常出色,既保留了长上下文理解能力,又显著减少了内存使用。
目前,PyramidKV相关代码已经在GitHub开源。
引入金字塔信息汇聚方式随着模型尺寸的增大,推理需要的时间越来越多。KV cache作为推理加速的关键技术,通过缓存之前的解码步骤中计算出的Transformer的K和V矩阵减少后续解码时间。
但是,随着序列长度增大,需要缓存的KV cache会快速增长,占用大量显存。针对这一问题,之前的工作设计策略是对KV cache进行压缩。
实际上,长文本的推理加速和显存节省作为一个重要的话题,这涉及到广泛的大模型下游应用,比如检索增强生成(Retrieval-Augment
原文链接:2.5%KV缓存保持大模型90%性能,大模型金字塔式信息汇聚模式探秘|开源
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...