手机流畅运行470亿大模型：上交大发布LLM手机推理框架PowerInfer-2，提速29倍

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：手机流畅运行470亿大模型：上交大发布LLM手机推理框架PowerInfer-2，提速29倍
关键字：神经元,模型,手机,内存,权重
文章来源：量子位
内容字数：0字

内容摘要：

梦晨发自凹非寺量子位 | 公众号 QbitAI苹果一出手，在手机等移动设备上部署大模型不可避免地成为行业关注焦点。
然而，目前在移动设备上运行的模型相对较小（苹果的是3B，谷歌的是2B），并且消耗大量内存，这在很大程度上限制了其应用场景。
即使是苹果，目前也需要与OpenAI合作，通过将云端GPT-4o大模型嵌入到操作系统中来提供能力更强的服务。
这样一来，苹果的混合方案引起了非常多关于数据隐私的讨论和争议，甚至马斯克都下场讨论。
如果苹果在操作系统层面集成OpenAI，那么苹果设备将被禁止在我的公司使用。这是不可接受的安全违规行为。
既然终端侧本地部署大模型的方案既让手机用户享受到AI强大的智能，又能保护好自己的隐私安全，为什么苹果还要冒着隐私的风险选择联手OpenAI采用云端大模型呢？主要挑战有两点：
手机内存不够大：按照大模型的Scaling Law法则，模型参数越大，能力对应的也就越强，这就意味着能力更强的模型对内存的要求越高。
手机算力不够强：即使勉强把通过量化等手段把模型塞进手机了，推理速度也慢，适合的应用场景也就非常有限了。
为了解决上述挑战，上海交大IPADS实

原文链接：手机流畅运行470亿大模型：上交大发布LLM手机推理框架PowerInfer-2，提速29倍