告别CUDA无需Triton！Mirage零门槛生成PyTorch算子，人均GPU编程大师？

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：告别CUDA无需Triton！Mirage零门槛生成PyTorch算子，人均GPU编程大师？
关键字：内核,注意力,线程,性能,乘法
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com近日，来自 CMU 的 Catalyst Group 团队发布了一款 PyTorch 算子编译器 Mirage，用户无需编写任何 CUDA 和 Triton 代码就可以自动生成 GPU 内核，并取得更佳的性能。
随着 GPU 加速器的不断发展以及以大语言模型为代表的生成式 AI 应用的不断推广，通过开发高性能 GPU 内核来优化 PyTorch 程序的计算效率变得越来越重要。目前，这项任务主要由专门的 GPU 专家来完成。在 NVIDIA CUDA 或 AMD ROCm 中编写高性能 GPU 内核需要高水平的 GPU 专业知识和大量的工程开发经验。目前的机器学习编译器（如 TVM、Triton 和 Mojo）提供了一些高级编程接口，以简化 GPU 编程，使用户

原文链接：告别CUDA无需Triton！Mirage零门槛生成PyTorch算子，人均GPU编程大师？