2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍

AIGC动态9个月前发布 量子位
60 0 0

2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍

AIGC动态欢迎阅读

原标题:2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍
关键字:神经元,模型,速度,局部性,路由
文章来源:量子位
内容字数:7617字

内容摘要:


上交大IPADS实验室 投稿量子位 | 公众号 QbitAI原本需要一张16万元的80G A100干的活,现在只需要一张不到2万元的24G 4090就够了!
上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。
而且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;如果加入量化,2080 Ti也能流畅运行70B模型。
结合大模型的独特特征,通过CPU与GPU间的混合计算,PowerInfer能够在显存有限的个人电脑上实现快速推理。
相比于llama.cpp,PowerInfer实现了高达11倍的加速,让40B模型也能在个人电脑上一秒能输出十个token。
我们最熟悉的ChatGPT,一方面有时会因为访问量过大而宕机,另一方面也存在数据安全问题。
开源模型能较好地解决这两个问题,但如果没有高性能的显卡,运行速度往往十分感人:
而PowerInfer的出现,刚好解决了这个痛点。
PowerInfer一经发布就引起热烈反响,不到24小时就获得了500+星标,其中还有一颗来自llama.cpp的作者Gerganov。
目前,PowerInf


原文链接:2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...