Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动
关键字：数值,偏差,模型,权重,研究者
文章来源：机器之心
内容字数：8577字

内容摘要：

机器之心报道
机器之心编辑部Meta FAIR 联合哈佛优化大规模机器学习时产生的数据偏差，提供了新的研究框架。众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。
最近，许多机构在训练 SOTA 生成式 AI 模型时报告了训练过程中的不稳定情况，它们通常以损失尖峰的形式出现，比如谷歌的 PaLM 模型训练过程现了多达 20 次的损失尖峰。
数值偏差是造成这种训练不稳定性的潜在原因，由于大语言模型训练运行成本极高，如何量化数值偏差俨然成为关键问题。
在最新的一项工作中，来自 Meta、哈佛大学的研究者开发了一个定量方法来理解训练优化中的数值偏差，以此评估不同的最新优化技术，并确定它们在用于训练大模型时是否可能引入意外的不稳定性。论文标题：Is Flash Attention Stable？
论文链接：https://arxiv.org/pdf/2405.02803
结果发现，在一次单独的前向传递

原文链接：Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动