AIGC动态欢迎阅读
原标题:LLM推理飙升25倍!苹果超高效内存优化将大模型塞进iPhone,2秒视频生成逼真3D化身
关键字:神经元,闪存,模型,数据,加载
文章来源:新智元
内容字数:6248字
内容摘要:
新智元报道编辑:alan
【新智元导读】近日,苹果连发两篇论文,不仅能一键生成逼真的3D化身,而且还要把大模型装进你的iPhone想不想在你的iPhone上本地运行GPT-4?
也许在不久的将来,这个幻想就会照进现实!
近日,苹果发布了一篇深受业界瞩目的文章,目的是探索在有限的内存中运行大语言模型。
论文地址:https://arxiv.org/pdf/2312.11514.pdf
苹果通过软硬件协同优化,使设备能够支持运行的模型大小达到了自身DRAM的两倍!
在这项技术的加持之下,LLM的推理速度在Apple M1 Max CPU上提高了4-5倍,在GPU上提高了20-25倍。
在上图给出的LLM推理延迟的比较中,我们可以看到苹果提出的方法效果相当出色。
而这些优化可能很快就可以让复杂的AI助手,或者是聊天机器人在iPhone、iPad和其他移动设备上流畅运行。
面对当下由生成式AI引领的革命,
多数人希望把模型做大做强,比如可能有万亿参数的GPT-4(OpenAI家的登月计划更是夸张);
另一部分人则在探索「小模型」的潜力,比如以7B参数打平70B Llama的Zephyr,以及
原文链接:LLM推理飙升25倍!苹果超高效内存优化将大模型塞进iPhone,2秒视频生成逼真3D化身
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...