4090成A100平替？token生成速度只比A100低18%，上交大推理引擎火了

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：4090成A100平替？token生成速度只比A100低18%，上交大推理引擎火了
关键字：神经元,模型,离线,内存,峰值
文章来源：机器之心
内容字数：6076字

内容摘要：

机器之心报道
机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。PowerInfer 和 llama.cpp 都在相同的硬件上运行，并充分利用了 RTX 4090 上的 VRAM。
这个推理引擎速度有多快？在单个 NVIDIA RTX 4090 GPU 上运行 LLM ，PowerInfer 的平均 token 生成速率为 13.20 tokens/s，峰值为 29.08 tokens/s，仅比顶级服务器 A100 GPU 低 18%，可适用于各种 LLM。
不仅如此，PowerInfer 与最先进的本地LLM推理框架 llama.cpp 相比，在单个 RTX 4090 (24G) 上运行 Falcon (ReLU)-40B-FP16，实现了 11 倍多的加速，还能保持模型的准确性。
具体来说，PowerInfer 是一个用于本地部署 LLM 的高速推理引擎。与那些采用多专家系统（MoE）不同的是，PowerInfer 通过利用 LLM 推理中的高度局部性，巧妙的设计了一款

原文链接：4090成A100平替？token生成速度只比A100低18%，上交大推理引擎火了