突破常规：仅用0.2%训练量，线性注意力提升20+的惊人发现！

原标题：405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+
文章来源：新智元
内容字数：5537字

新智元：低秩线性转换方法的推出与应用

近期，斯坦福大学、麻省理工学院等机构的研究人员推出了一种名为LoLCATs（Low-rank Linear Conversion with Attention Transfer）的低秩线性转换方法。这一方法能够将传统的注意力机制无缝转移到线性注意力，仅需0.2%的参数更新即可恢复模型精度。研究团队成功地在两天内对405B的大模型进行了训练，展现了线性注意力的强大潜力。

1. 线性化的必要性

传统的softmax注意力计算复杂度随序列长度的平方增长，导致对长序列处理的困难。线性化的目标是将计算复杂度降低为线性关系，从而缓解长序列带来的压力。

2. LoLCATs的实现步骤

LoLCATs的线性化转换分为两个主要步骤：首先，使用线性注意力替换原始的softmax注意力，并通过MSE损失训练新增的参数；其次，通过低秩适配（LoRA）进行微调，以提升模型精度。这种方法不仅高效，还能保持接近原始模型的性能。

3. 逐层优化与并行训练

为了实现可扩展性，研究人员引入了逐层优化的理念，将大模型分为多个块进行联合训练。通过这种方式，研究团队成功地将训练时间缩短，且在处理像Llama 3.1 405B这样的大模型时，整体训练效率得到了显著提高。

4. 实验结果与模型性能

在多个流行的LLM评估任务中，LoLCATs显著提升了模型质量和训练效率。相比于以往的线性化方法，LoLCATs的参数训练量仅为0.2%，但模型性能差距缩小了80%以上。尤其在Llama 3.1 70B和405B模型上，精度分别提升了39点和38.3分，训练效率也得到了改善。

结论

LoLCATs的推出标志着线性化技术的进步，开辟了在生产级大模型中应用线性注意力的道路。通过这种高效的转换方法，研究人员不仅解决了模型训练成本高的问题，也为未来大规模模型的开发提供了新的思路。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

# AIGC动态 # 人工智能行业 # 大模型 # 斯坦福MIT # 线性注意力 # 训练量

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

突破常规：仅用0.2%训练量，线性注意力提升20+的惊人发现！

新智元：低秩线性转换方法的推出与应用

1. 线性化的必要性

2. LoLCATs的实现步骤

3. 逐层优化与并行训练

4. 实验结果与模型性能

结论

联系作者

Mistral重磅升级：畅享ChatGPT同款免费功能，Canvas、Artifact、联网全新上线！

三名高中生勇夺AI顶会NeurIPS，展现未来科技新星！

相关文章

暂无评论

ChatGPT

毕业论文生成器