斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快
关键字：张量,内存,研究人员,寄存器,硬件
文章来源：量子位
内容字数：0字

内容摘要：

西风发自凹非寺量子位 | 公众号 QbitAIAI算力资源越发紧张的当下，斯坦福新研究将GPU运行效率再提升一波——
内核只有100行代码，让H100比使用FlashAttention-2，性能还要提升30%。
怎么做到的？
研究人员从“硬件实际需要什么？如何满足这些需求？”这两个问题出发，设计了一个嵌入式CUDA DSL工具，名为ThunderKittens（暂且译为雷猫）。
雷猫可简化AI内核的编写，同时充分利用底层硬件能力。
具体来说，雷猫的主要抽象是寄存器和共享内存中的小型张量块（tile），和目前GPU中对小矩阵乘法的优化相匹配。
通过操作这些tile，开发者可相对简单地编写代码，充分利用张量核心、异步数据传输和共享内存等硬件特性。
使用雷猫实现的注意力机制内核，代码量少且能实现很高的硬件利用率，性能超过直接使用底层库（如Cutlass）。
详细讨论过程以及雷猫是怎么设计出的，研究人员以“GPUs Go Brrr”为题，发在了斯坦福Hazy Research的Blog网站上。
网友们对此讨论也十分热烈。
有网友表示读这篇Blog时，让他想起了初次了解超标量CPU架构时的

原文链接：斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快