PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍

AIGC动态1年前 (2023)发布 量子位
18 0 0

PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍

AIGC动态欢迎阅读

原标题:PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍

关键字:长度,注意力,模型,长上,作者

文章来源:量子位

内容字数:5720字

内容摘要:丰色 发自 凹非寺量子位 | 公众号 QbitAI这两天,FlashAttention团队推出了新作:一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证。甚至得到了PyTorch官方认可:如果你之前有所关注,就会记得用给大模型加速效果真的很惊艳。不过它仅限于训练阶段。因此,这一新成果一出,就有…

原文链接:点此阅读原文:PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...