让记忆层超越概念验证。
原标题:Meta探索大模型记忆层,扩展至1280亿个参数,优于MoE
文章来源:机器之心
内容字数:3544字
Meta 突破性研究:大规模语言模型中的记忆层
Meta 的一项最新研究显著提升了大型语言模型 (LLM) 的性能,其核心在于引入了可扩展的记忆层。这项研究证明了记忆层在 LLM 扩展中的实用性,并超越了以往的概念验证阶段。
1. 记忆层的优势与工作原理
传统的密集深度神经网络将信息编码为权重矩阵,参数规模的扩张直接导致计算和能源消耗的增加。而记忆层则提供了一种更高效的方案。它使用可训练的键值查找机制,在不增加 FLOP 的情况下向模型添加额外的参数。记忆层以稀疏激活的方式补充密集前馈层,实现廉价的存储和信息检索。其工作原理类似于注意力机制,但键值对是可训练参数,且规模更大,需要稀疏查询和更新。
2. 扩展记忆层的挑战与解决方案
扩展记忆层面临着“查询-键”检索机制的瓶颈。简单的最近邻搜索在大型记忆中效率低下。该研究采用可训练的“product-quantized”键来解决此问题。为了应对记忆密集型的问题,研究人员在多个 GPU 上并行化嵌入查找和聚合,并采用共享记忆参数池,最大化参数共享。
3. 记忆层的改进与训练
研究人员通过引入具有 silu 非线性的输入相关门控来提高记忆层的训练性能,从而改进输出结果。这种改进的记忆层被称为 Memory+。
4. 实验结果与性能提升
实验结果表明,Memory 模型显著优于密集基线模型,其性能与参数数量为其两倍的密集模型相当。Memory+ 模型的性能进一步提升,甚至超过了计算能力高出其 2 到 4 倍的密集模型。与参数数量相当的专家混合 (MoE) 模型相比,Memory 变体也展现出显著优势。在相同参数数量下,Memory+ 模型的性能随着记忆大小的增加而持续提升。一个拥有 6400 万个键(1280 亿个记忆参数)的 1.3B Memory 模型,其性能甚至接近使用了 10 倍以上 FLOPs 的 Llama2 7B 模型。
5. 结论
Meta 的这项研究表明,经过充分改进和扩展的记忆层可以有效增强密集神经网络,带来巨大的性能提升。这项技术在不同规模的模型中都展现出一致的优势,为大型语言模型的未来发展提供了新的方向。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台