GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也趴！

AIGC动态1年前 (2024)发布新智元

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

AIGC动态欢迎阅读

原标题：GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也趴！
关键字：模型,内存,芯片,带宽,速度
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：桃子好困
【新智元导读】LLM若以每秒1000+token高速推理，当前最先进的GPU根本无法实现！Cerebras Inference一出世，推理速度赶超英伟达GPU，背靠自研的世界最大芯片加持。而且，还将推理价格打了下来。LLM若想高速推理，现如今，连GPU都无法满足了？
曾造出世界最大芯片公司Cerebras，刚刚发布了全球最快的AI推理架构——Cerebras Inference。
运行Llama3.1 8B时，它能以1800 token/s的速率吐出文字。
不论是总结文档，还是代码生成等任务，响应几乎一闪而过，快到让你不敢相信自己的眼睛。
如下图右所示，以往，微调版Llama3.1 8B推理速度为90 token/s，清晰可见每行文字。
而现在，直接从90 token/s跃升到1800 token/s，相当于从拨号上网迈入了带宽时代。
左边Cerebras Inference下模型的推理速度，只能用「瞬间」、「疯狂」两字形容。
这是什么概念？
比起英伟达GPU，Cerebras Inference的推理速度快20倍，还要比专用Groq芯片还要快2.4倍。

原文链接：GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也趴！