原标题:405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+
文章来源:新智元
内容字数:5537字
新智元:低秩线性转换方法的推出与应用
近期,斯坦福大学、麻省理工学院等机构的研究人员推出了一种名为LoLCATs(Low-rank Linear Conversion with Attention Transfer)的低秩线性转换方法。这一方法能够将传统的注意力机制无缝转移到线性注意力,仅需0.2%的参数更新即可恢复模型精度。研究团队成功地在两天内对405B的大模型进行了训练,展现了线性注意力的强大潜力。
1. 线性化的必要性
传统的softmax注意力计算复杂度随序列长度的平方增长,导致对长序列处理的困难。线性化的目标是将计算复杂度降低为线性关系,从而缓解长序列带来的压力。
2. LoLCATs的实现步骤
LoLCATs的线性化转换分为两个主要步骤:首先,使用线性注意力替换原始的softmax注意力,并通过MSE损失训练新增的参数;其次,通过低秩适配(LoRA)进行微调,以提升模型精度。这种方法不仅高效,还能保持接近原始模型的性能。
3. 逐层优化与并行训练
为了实现可扩展性,研究人员引入了逐层优化的理念,将大模型分为多个块进行联合训练。通过这种方式,研究团队成功地将训练时间缩短,且在处理像Llama 3.1 405B这样的大模型时,整体训练效率得到了显著提高。
4. 实验结果与模型性能
在多个流行的LLM评估任务中,LoLCATs显著提升了模型质量和训练效率。相比于以往的线性化方法,LoLCATs的参数训练量仅为0.2%,但模型性能差距缩小了80%以上。尤其在Llama 3.1 70B和405B模型上,精度分别提升了39点和38.3分,训练效率也得到了改善。
结论
LoLCATs的推出标志着线性化技术的进步,开辟了在生产级大模型中应用线性注意力的道路。通过这种高效的转换方法,研究人员不仅解决了模型训练成本高的问题,也为未来大规模模型的开发提供了新的思路。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。