4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

AIGC动态9个月前发布 机器之心
16 0 0

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

AIGC动态欢迎阅读

原标题:4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了
关键字:神经元,模型,离线,内存,峰值
文章来源:机器之心
内容字数:6076字

内容摘要:


机器之心报道
机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。
这个推理引擎速度有多快?在单个 NVIDIA RTX 4090 GPU 上运行 LLM ,PowerInfer 的平均 token 生成速率为 13.20 tokens/s,峰值为 29.08 tokens/s,仅比顶级服务器 A100 GPU 低 18%,可适用于各种 LLM。
不仅如此,PowerInfer 与最先进的本地LLM推理框架 llama.cpp 相比,在单个 RTX 4090 (24G) 上运行 Falcon (ReLU)-40B-FP16,实现了 11 倍多的加速,还能保持模型的准确性。
具体来说,PowerInfer 是一个用于本地部署 LLM 的高速推理引擎。与那些采用多专家系统(MoE)不同的是,PowerInfer 通过利用 LLM 推理中的高度局部性,巧妙的设计了一款


原文链接:4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...