手机流畅运行470亿大模型:上交大发布LLM手机推理框架PowerInfer-2,提速29倍

AIGC动态5个月前发布 量子位
10 0 0

手机流畅运行470亿大模型:上交大发布LLM手机推理框架PowerInfer-2,提速29倍

AIGC动态欢迎阅读

原标题:手机流畅运行470亿大模型:上交大发布LLM手机推理框架PowerInfer-2,提速29倍
关键字:神经元,模型,手机,内存,权重
文章来源:量子位
内容字数:0字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAI苹果一出手,在手机等移动设备上部署大模型不可避免地成为行业关注焦点。
然而,目前在移动设备上运行的模型相对较小(苹果的是3B,谷歌的是2B),并且消耗大量内存,这在很大程度上限制了其应用场景。
即使是苹果,目前也需要与OpenAI合作,通过将云端GPT-4o大模型嵌入到操作系统中来提供能力更强的服务。
这样一来,苹果的混合方案引起了非常多关于数据隐私的讨论和争议,甚至马斯克都下场讨论。
如果苹果在操作系统层面集成OpenAI,那么苹果设备将被禁止在我的公司使用。这是不可接受的安全违规行为。
既然终端侧本地部署大模型的方案既让手机用户享受到AI强大的智能,又能保护好自己的隐私安全,为什么苹果还要冒着侵犯隐私的风险选择联手OpenAI采用云端大模型呢?主要挑战有两点:
手机内存不够大:按照大模型的Scaling Law法则,模型参数越大,能力对应的也就越强,这就意味着能力更强的模型对内存的要求越高。
手机算力不够强:即使勉强把通过量化等手段把模型塞进手机了,推理速度也慢,适合的应用场景也就非常有限了。
为了解决上述挑战,上海交大IPADS实


原文链接:手机流畅运行470亿大模型:上交大发布LLM手机推理框架PowerInfer-2,提速29倍

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...