不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手｜Karpathy转赞

AIGC动态3年前 (2023)发布新智元

AIGC动态欢迎阅读

动态标题：不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手｜Karpathy转赞

文章来源：新智元

内容字数：3238字

内容摘要：新智元报道编辑：桃子【新智元导读】现在，34B Code Llama模型已经能够在M2 Ultra上的Mac运行了，而且推理速度超过每秒20个token，背后杀器竟是「投机采样」。开源社区的一位开发者Georgi Gerganov发现，自己可以在M2 Ultra上运行全F16精度的34B Code Llama模型，而且推理速度超过了20 token/s。毕竟，M2 Ultra的带宽有800GB/s…

原文链接：点此阅读原文：不用4个H100！340亿参数Code Llama在Mac可跑，每秒20个token，代码生成最拿手｜Karpathy转赞