别再「浪费」GPU了，FlashAttention重磅升级，实现长文本推理速度8倍提升

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：别再「浪费」GPU了，FlashAttention重磅升级，实现长文本推理速度8倍提升

文章来源：机器之心

内容字数：6435字

内容摘要：机器之心报道机器之心编辑部处理小说、法律文件等长文本是大模型的一个重要应用方向，但也面临速度上的挑战。FlashAttention 作者 Tri Dao 等人提出的「Flash-Decoding」通过充分利用 GPU，可以将大模型的长上下文推理速度提高至 8 倍。最近，像 ChatGPT 或 Llama 这样的大型语言模型（LLM）引起了前所未有的关注。然而，它们的运行成本仍然极高。虽然生成单个响…

原文链接：点此阅读原文：别再「浪费」GPU了，FlashAttention重磅升级，实现长文本推理速度8倍提升