大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了
关键字：腾讯,模型,速度,芯片,加速卡
文章来源：量子位
内容字数：5196字

内容摘要：

白交克雷西发自凹非寺量子位 | 公众号 QbitAI太快了太快了。
一夜间，大模型生成已经没什么延迟了……来感受下这速度。
眼花缭乱了吧，生成速度已经接近每秒500 tokens。
还有更直观的列表对比，速度最高能比以往这些云平台厂商快个18倍吧。
（这里面还有个熟悉的身影：Lepton）
网友表示：这速度简直就是飞机vs走路。
值得一提的是，这并非哪家大公司进展——
初创公司Groq，谷歌TPU团队原班人马，基于自研芯片推出推理加速方案。（注意不是马斯克的Grok）
据他们介绍，其推理速度相较于英伟达GPU提高了10倍，成本却降低到十分之一。
换言之，任何一个大模型都可以部署实现。
目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型，并且可直接体验Demo。
他们还在官网上喊话奥特曼：
你们推出的东西太慢了……
每秒接近500tokens既然如此，那就来体验一下这个号称「史上最快推理」的Groq。
先声明：不比较生成质量。就像它自己说的那样，内容概不负责。
目前，演示界面上有两种模型可以选择。
就选择Mixtral 8x7B-32k和GPT

原文链接：大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了