用上这个工具包,大模型推理性能加速达40倍

AIGC动态12个月前发布 量子位
24 0 0

用上这个工具包,大模型推理性能加速达40倍

AIGC动态欢迎阅读

原标题:用上这个工具包,大模型推理性能加速达40倍

关键字:英特尔,性能,高效,大小,模型

文章来源:量子位

内容字数:12295字

内容摘要:作者:英特尔公司 沈海豪、罗屿、孟恒宇、董波、林俊编者按:只需不到9行代码,就能在CPU上实现出色的LLM推理性能。英特尔®Extension for Transformer创新工具包中的LLM Runtime为诸多模型显著降低时延,且首个token和下一个token的推理速度分别提升多达40倍和2.68倍,还能满足更多场景应用需求。英特尔®Extension for Transformer是什么?英特尔®Extension for Transformers[1]是英特尔推出的一个创新工具包,可基于英特尔®架构平台,尤其是第四代英特尔®至强®可扩展处理器(代号Sapphire Rapids[2],SPR)显著加速基于Transformer的大语言模型(Large Language Model,LLM)。其主要特性包括:通过扩展Hugging Face transformers API[3]…

原文链接:点此阅读原文:用上这个工具包,大模型推理性能加速达40倍

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...