别再「浪费」GPU了,FlashAttention重磅升级,实现长文本推理速度8倍提升

AIGC动态11个月前发布 机器之心
258 0 0

别再「浪费」GPU了,FlashAttention重磅升级,实现长文本推理速度8倍提升

AIGC动态欢迎阅读

原标题:别再「浪费」GPU了,FlashAttention重磅升级,实现长文本推理速度8倍提升

关键字:注意力,长度,序列,模型,上下文

文章来源:机器之心

内容字数:6435字

内容摘要:机器之心报道机器之心编辑部处理小说、法律文件等长文本是大模型的一个重要应用方向,但也面临速度上的挑战。FlashAttention 作者 Tri Dao 等人提出的「Flash-Decoding」通过充分利用 GPU,可以将大模型的长上下文推理速度提高至 8 倍。最近,像 ChatGPT 或 Llama 这样的大型语言模型(LLM)引起了前所未有的关注。然而,它们的运行成本仍然极高。虽然生成单个响…

原文链接:点此阅读原文:别再「浪费」GPU了,FlashAttention重磅升级,实现长文本推理速度8倍提升

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...