2080 Ti就能跑70B大模型，上交大新框架让LLM推理增速11倍

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：2080 Ti就能跑70B大模型，上交大新框架让LLM推理增速11倍
关键字：神经元,模型,速度,局部性,路由
文章来源：量子位
内容字数：7617字

内容摘要：

上交大IPADS实验室投稿量子位 | 公众号 QbitAI原本需要一张16万元的80G A100干的活，现在只需要一张不到2万元的24G 4090就够了！
上海交大IPADS实验室推出的开源推理框架PowerInfer，让大模型推理速度加快了11倍。
而且不用量化，就用FP16精度，也能让40B模型在个人电脑上运行；如果加入量化，2080 Ti也能流畅运行70B模型。
结合大模型的独特特征，通过CPU与GPU间的混合计算，PowerInfer能够在显存有限的个人电脑上实现快速推理。
相比于llama.cpp，PowerInfer实现了高达11倍的加速，让40B模型也能在个人电脑上一秒能输出十个token。
我们最熟悉的ChatGPT，一方面有时会因为访问量过大而宕机，另一方面也存在数据安全问题。
开源模型能较好地解决这两个问题，但如果没有高性能的显卡，运行速度往往十分感人：
而PowerInfer的出现，刚好解决了这个痛点。
PowerInfer一经发布就引起热烈反响，不到24小时就获得了500+星标，其中还有一颗来自llama.cpp的作者Gerganov。
目前，PowerInf

原文链接：2080 Ti就能跑70B大模型，上交大新框架让LLM推理增速11倍