CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?

AIGC动态11个月前发布 机器之心
16 0 0

CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?

AIGC动态欢迎阅读

原标题:CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?
关键字:闪存,模型,加载,数据,神经元
文章来源:机器之心
内容字数:7396字

内容摘要:


机器之心报道
编辑:杜伟、蛋酱苹果这项新工作将为未来 iPhone 加入大模型的能力带来无限想象力。近年来,GPT-3、OPT 和 PaLM 等大型语言模型(LLM)在广泛的 NLP 任务中表现出了强大的性能。不过,这些能力伴随着大量计算和内存推理需求,毕竟大型语言模型可能包含数千亿甚至万亿参数,使得高效加载和运行变得有挑战性,尤其是在资源有限的设备上。
当前标准的应对方案是将整个模型加载到 DRAM 中进行推理,然而这种做法严重限制了可以运行的最大模型尺寸。举个例子,70 亿参数的模型需要 14GB 以上的内存才能加载半精度浮点格式的参数,这超出了大多数边缘设备的能力。
为了解决这种局限性,苹果的研究者提出在闪存中存储模型参数,至少比 DRAM 大了一个数量级。接着在推理中,他们直接并巧妙地从闪存加载所需参数,不再需要将整个模型拟合到 DRAM 中。
这种方法基于最近的工作构建,这些工作表明 LLM 在前馈网络(FFN)层中表现出高度稀疏性,其中 OPT、Falcon 等模型的稀疏性更是超过 90%。因此,研究者利用这种稀疏性, 有选择地仅从闪存中加载具有非零输入或预测具有非零输出的


原文链接:CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...