大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人马打造,喊话奥特曼:你们也太慢了

AIGC动态10个月前发布 量子位
16 0 0

大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人马打造,喊话奥特曼:你们也太慢了

AIGC动态欢迎阅读

原标题:大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人马打造,喊话奥特曼:你们也太慢了
关键字:腾讯,模型,速度,芯片,加速卡
文章来源:量子位
内容字数:5196字

内容摘要:


白交 克雷西 发自 凹非寺量子位 | 公众号 QbitAI太快了太快了。
一夜间,大模型生成已经没什么延迟了……来感受下这速度。
眼花缭乱了吧,生成速度已经接近每秒500 tokens。
还有更直观的列表对比,速度最高能比以往这些云平台厂商快个18倍吧。
(这里面还有个熟悉的身影:Lepton)
网友表示:这速度简直就是飞机vs走路。
值得一提的是,这并非哪家大公司进展——
初创公司Groq,谷歌TPU团队原班人马,基于自研芯片推出推理加速方案。(注意不是马斯克的Grok)
据他们介绍,其推理速度相较于英伟达GPU提高了10倍,成本却降低到十分之一。
换言之,任何一个大模型都可以部署实现。
目前已经能支持Mixtral 8x7B SMoE、Llama 2的7B和70B这三种模型,并且可直接体验Demo。
他们还在官网上喊话奥特曼:
你们推出的东西太慢了……
每秒接近500tokens既然如此,那就来体验一下这个号称「史上最快推理」的Groq。
先声明:不比较生成质量。就像它自己说的那样,内容概不负责。
目前,演示界面上有两种模型可以选择。
就选择Mixtral 8x7B-32k和GPT


原文链接:大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人马打造,喊话奥特曼:你们也太慢了

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...