AIGC动态欢迎阅读
文章来源:量子位
内容字数:12295字
内容摘要:作者:英特尔公司 沈海豪、罗屿、孟恒宇、董波、林俊编者按:只需不到9行代码,就能在CPU上实现出色的LLM推理性能。英特尔®Extension for Transformer创新工具包中的LLM Runtime为诸多模型显著降低时延,且首个token和下一个token的推理速度分别提升多达40倍和2.68倍,还能满足更多场景应用需求。英特尔®Extension for Transformer是什么?英特尔®Extension for Transformers[1]是英特尔推出的一个创新工具包,可基于英特尔®架构平台,尤其是第四代英特尔®至强®可扩展处理器(代号Sapphire Rapids[2],SPR)显著加速基于Transformer的大语言模型(Large Language Model,LLM)。其主要特性包括:通过扩展Hugging Face transformers API[3]…
原文链接:点此阅读原文:用上这个工具包,大模型推理性能加速达40倍
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...