CPU推理提升4到5倍，苹果用闪存加速大模型推理，Siri 2.0要来了？

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：CPU推理提升4到5倍，苹果用闪存加速大模型推理，Siri 2.0要来了？
关键字：闪存,模型,加载,数据,神经元
文章来源：机器之心
内容字数：7396字

内容摘要：

机器之心报道
编辑：杜伟、蛋酱苹果这项新工作将为未来 iPhone 加入大模型的能力带来无限想象力。近年来，GPT-3、OPT 和 PaLM 等大型语言模型（LLM）在广泛的 NLP 任务中表现出了强大的性能。不过，这些能力伴随着大量计算和内存推理需求，毕竟大型语言模型可能包含数千亿甚至万亿参数，使得高效加载和运行变得有挑战性，尤其是在资源有限的设备上。
当前标准的应对方案是将整个模型加载到 DRAM 中进行推理，然而这种做法严重限制了可以运行的最大模型尺寸。举个例子，70 亿参数的模型需要 14GB 以上的内存才能加载半精度浮点格式的参数，这超出了大多数边缘设备的能力。
为了解决这种局限性，苹果的研究者提出在闪存中存储模型参数，至少比 DRAM 大了一个数量级。接着在推理中，他们直接并巧妙地从闪存加载所需参数，不再需要将整个模型拟合到 DRAM 中。
这种方法基于最近的工作构建，这些工作表明 LLM 在前馈网络（FFN）层中表现出高度稀疏性，其中 OPT、Falcon 等模型的稀疏性更是超过 90%。因此，研究者利用这种稀疏性，有选择地仅从闪存中加载具有非零输入或预测具有非零输出的

原文链接：CPU推理提升4到5倍，苹果用闪存加速大模型推理，Siri 2.0要来了？