原标题:DeepSeek-R1自写CUDA内核跑分屠榜!斯坦福学霸狂飙GPU编程自动化挑战人类
文章来源:新智元
内容字数:12309字
AI驱动GPU编程自动化:斯坦福和普林斯顿研究突破
近日,斯坦福和普林斯顿的研究者取得重大突破,其研发的DeepSeek-R1模型在GPU内核自动生成领域超越了OpenAI o1和Claude 3.5 Sonnet,取得了排名第一的成绩。这项研究标志着AI驱动GPU编程自动化的时代已经到来。
1. DeepSeek-R1:AI内核生成的领跑者
研究者们开发了一个名为KernelBench的框架,用于评估大型语言模型(LLM)生成GPU内核的能力。在这个框架中,DeepSeek-R1模型表现出色,在一定程度上超越了PyTorch Eager基线,生成的自定义CUDA内核效率更高。虽然目前仅在不到20%的任务中超越基线,但这已经证明了AI自动生成高性能GPU内核的可能性。
2. KernelBench框架:评估AI内核生成能力的关键
KernelBench框架包含250个任务,涵盖了从单个操作到完整机器学习架构等各种AI工作负载。该框架模拟了AI工程师的迭代优化过程,并引入了新的评估指标fast_p,用于衡量生成的内核在功能正确性和加速性能方面的表现。通过调整阈值参数p,可以评估不同加速阈值下的内核性能。
3. 模型表现与挑战
研究发现,目前的LLM在生成正确且优于PyTorch基线速度的内核方面仍然面临挑战。LLM生成的内核存在大量的执行错误和功能正确性问题。虽然推理模型(如o1和R1)生成的错误解决方案较少,但在性能方面仍未完全超越PyTorch基线。模型生成的内核在不同硬件平台上的通用性也有待提高。
4. 反馈机制提升性能
研究者们探索了利用反馈机制来改进LLM生成内核的能力。通过重复采样和迭代优化两种方法,可以显著提高生成的内核的正确率和性能。迭代优化过程中,模型可以利用编译器错误、执行统计数据和PyTorch分析器输出等反馈信息进行自我纠正,从而生成更高效的内核。
5. 硬件知识的利用
研究者们还尝试向模型提供硬件信息(如内存带宽、TFLOPS)和内核优化技巧(如矩阵乘法中的分块),以引导模型生成针对特定GPU的优化内核。结果显示,虽然模型偶尔会尝试使用特定于硬件的指令,但往往无确编译或使用它们。
6. 未来展望
KernelBench框架的出现为AI驱动GPU编程自动化提供了坚实的基础。未来,KernelBench将持续演进,扩展到更多AI任务,并提高加速门槛,以推动更高效的优化方案。同时,研究者们也计划探索更先进的微调和推理技术,以及使用其他编程抽象来简化内核生成过程。
7. 行业趋势
除了斯坦福和普林斯顿的研究,英伟达、Meta和Sakana AI等公司也纷纷投入到AI驱动GPU内核自动生成的研究中,并取得了令人瞩目的成果。这表明,AI驱动加速AI的新纪元已经到来。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。