LLM推理飙升25倍！苹果超高效内存优化将大模型塞进iPhone，2秒视频生成逼真3D化身

AIGC动态2年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：LLM推理飙升25倍！苹果超高效内存优化将大模型塞进iPhone，2秒视频生成逼真3D化身
关键字：神经元,闪存,模型,数据,加载
文章来源：新智元
内容字数：6248字

内容摘要：

新智元报道编辑：alan
【新智元导读】近日，苹果两篇论文，不仅能一键生成逼真的3D化身，而且还要把大模型装进你的iPhone想不想在你的iPhone上本地运行GPT-4？
也许在不久的将来，这个幻想就会照进现实！
近日，苹果发布了一篇深受业界瞩目的文章，目的是探索在有限的内存中运行大语言模型。
论文地址：https://arxiv.org/pdf/2312.11514.pdf
苹果通过软硬件协同优化，使设备能够支持运行的模型大小达到了自身DRAM的两倍！
在这项技术的加持之下，LLM的推理速度在Apple M1 Max CPU上提高了4-5倍，在GPU上提高了20-25倍。
在上图给出的LLM推理延迟的比较中，我们可以看到苹果提出的方法效果相当出色。
而这些优化可能很快就可以让复杂的AI助手，或者是机器人在iPhone、iPad和其他移动设备上流畅运行。
面对当下由生成式AI引领的，
多数人希望把模型做大做强，比如可能有万亿参数的GPT-4（OpenAI家的登月计划更是夸张）；
另一部分人则在探索「小模型」的潜力，比如以7B参数打平70B Llama的Zephyr，以及

原文链接：LLM推理飙升25倍！苹果超高效内存优化将大模型塞进iPhone，2秒视频生成逼真3D化身