苹果芯跑大模型不用降计算精度,投机采样杀疯了,GPT-4也在用

AIGC动态1年前 (2023)发布 量子位
23 0 0

苹果芯跑大模型不用降计算精度,投机采样杀疯了,GPT-4也在用

AIGC动态欢迎阅读

动态标题:苹果芯跑大模型不用降计算精度,投机采样杀疯了,GPT-4也在用

关键字:解读,模型,机器人,方法,论文

文章来源:量子位

内容字数:3579字

内容摘要:梦晨 发自 凹非寺量子位 | 公众号 QbitAI专攻代码的Code Llama一出,大家伙都盼着谁来后续量化瘦身一下,好在本地也能运行。果然是llama.cpp作者Georgi Gerganov出手了,但他这回不按套路出牌:不量化,就用FP16精度也让34B的Code LLama跑在苹果电脑上,推理速度超过每秒20个token。原本需要4个高端GPU才能搞定的活现在用只有800GB/s带宽的M2…

原文链接:点此阅读原文:苹果芯跑大模型不用降计算精度,投机采样杀疯了,GPT-4也在用

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...