GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也趴!

AIGC动态4个月前发布 新智元
9 0 0

GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!

AIGC动态欢迎阅读

原标题:GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也趴!
关键字:模型,内存,芯片,带宽,速度
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:桃子 好困
【新智元导读】LLM若以每秒1000+token高速推理,当前最先进的GPU根本无法实现!Cerebras Inference一出世,推理速度赶超英伟达GPU,背靠自研的世界最大芯片加持。而且,还将推理价格打了下来。LLM若想高速推理,现如今,连GPU都无法满足了?
曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——Cerebras Inference。
运行Llama3.1 8B时,它能以1800 token/s的速率吐出文字。
不论是总结文档,还是代码生成等任务,响应几乎一闪而过,快到让你不敢相信自己的眼睛。
如下图右所示,以往,微调版Llama3.1 8B推理速度为90 token/s,清晰可见每行文字。
而现在,直接从90 token/s跃升到1800 token/s,相当于从拨号上网迈入了带宽时代。
左边Cerebras Inference下模型的推理速度,只能用「瞬间」、「疯狂」两字形容。
这是什么概念?
比起英伟达GPU,Cerebras Inference的推理速度快20倍,还要比专用Groq芯片还要快2.4倍。


原文链接:GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也趴!

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...