用上这个工具包，大模型推理性能加速达40倍

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：用上这个工具包，大模型推理性能加速达40倍

文章来源：量子位

内容字数：12295字

内容摘要：作者：英特尔公司沈海豪、罗屿、孟恒宇、董波、林俊编者按：只需不到9行代码，就能在CPU上实现出色的LLM推理性能。英特尔®Extension for Transformer创新工具包中的LLM Runtime为诸多模型显著降低时延，且首个token和下一个token的推理速度分别提升多达40倍和2.68倍，还能满足更多场景应用需求。英特尔®Extension for Transformer是什么？英特尔®Extension for Transformers[1]是英特尔推出的一个创新工具包，可基于英特尔®架构平台，尤其是英特尔®至强®可扩展处理器（代号Sapphire Rapids[2]，SPR）显著加速基于Transformer的大语言模型(Large Language Model,LLM)。其主要特性包括：通过扩展Hugging Face transformers API[3]…

原文链接：点此阅读原文：用上这个工具包，大模型推理性能加速达40倍