原标题:比英伟达工程师还熟练!DeepSeek R1+测试时Scaling自动优化GPU内核
文章来源:新智元
内容字数:3891字
英伟达利用DeepSeek-R1和推理时扩展实现GPU内核自动生成
本文总结了英伟达近期一项突破性研究:通过结合DeepSeek-R1模型和推理时扩展技术,实现了GPU注意力内核的自动化生成,其性能甚至超越了一些经验丰富的工程师。
注意力机制与GPU内核优化的挑战
大型语言模型(LLM)中的注意力机制虽然能提升模型性能,但其计算复杂度与输入序列长度的平方成正比,导致计算量剧增,并可能出现内存不足等问题。为提高效率,需要开发优化的GPU内核。然而,针对不同类型的注意力机制(如因果注意力、相对位置嵌入等)以及多模态模型中的特殊注意力机制(如空间邻域注意力),手动编写优化的GPU内核是一项费时费力的工作,对工程师的技术水平要求很高。
DeepSeek-R1的局限与推理时扩展的优势
虽然DeepSeek-R1在代码生成方面展现出巨大潜力,但在生成优化GPU内核时,仍面临诸多挑战,例如代码语法错误、不同语言或框架语法混用等,导致生成的代码无法运行或效率低下。此外,计算最优的GPU线程映射也需要反复调整。推理时扩展技术则为解决这一问题提供了新的思路。它通过在推理过程中分配额外计算资源,允许模型评估多种可能性并选择最优解,如同人类一样逐步剖析复杂问题。
DeepSeek-R1与推理时扩展的结合
英伟达工程师巧妙地将DeepSeek-R1与推理时扩展技术相结合,构建了一种新的工作流程。该流程首先由工程师输入提示,DeepSeek-R1生成初始GPU内核代码。然后,一个运行在英伟达H100 GPU上的验证器分析生成的代码,并根据不足之处生成新的提示,反馈给DeepSeek-R1,进行迭代改进。整个过程持续约15分钟。
令人瞩目的成果与未来展望
测试结果显示,该方法在KernelBench基准测试中取得了显著成果。在Level-1问题中,生成的内核数值正确率达到100%;在Level-2问题中,正确率达到96%。推理时间预算对结果影响显著,分配更长的推理时间能显著提高代码正确率。该方法生成的内核在某些情况下甚至优于人工编写的内核。虽然该技术仍处于早期阶段,但其在自动化GPU内核生成方面的潜力巨大,为未来研究方向提供了新的可能性。
总而言之,英伟达的这项研究为GPU内核的自动化生成开辟了一条新的道路,通过巧妙地结合DeepSeek-R1和推理时扩展技术,极大地提高了GPU内核生成的效率和质量,并为未来AI模型的优化提供了新的思路。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。