苹果芯跑大模型不用降计算精度，投机采样杀疯了，GPT-4也在用

AIGC动态3年前 (2023)发布量子位

AIGC动态欢迎阅读

动态标题：苹果芯跑大模型不用降计算精度，投机采样杀疯了，GPT-4也在用

文章来源：量子位

内容字数：3579字

内容摘要：梦晨发自凹非寺量子位 | 公众号 QbitAI专攻代码的Code Llama一出，大家伙都盼着谁来后续量化瘦身一下，好在本地也能运行。果然是llama.cpp作者Georgi Gerganov出手了，但他这回不按套路出牌：不量化，就用FP16精度也让34B的Code LLama跑在苹果电脑上，推理速度超过每秒20个token。原本需要4个高端GPU才能搞定的活现在用只有800GB/s带宽的M2…

原文链接：点此阅读原文：苹果芯跑大模型不用降计算精度，投机采样杀疯了，GPT-4也在用