“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？

“嫌CUDA太慢用汇编，量化交易员才干得出这事”

原标题：“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？
文章来源：量子位
内容字数：3318字

DeepSeek-V3引发的CUDA护城河之争

近日，DeepSeek-V3的惊人性能引发了业界对英伟达CUDA护城河的热议。DeepSeek-V3在硬件效率上超越Meta等公司10倍，其秘诀在于“从头开始重建一切”，并绕过了CUDA，使用更底层的PTX语言进行优化。

1. DeepSeek-V3的极致优化

DeepSeek-V3团队通过修改英伟达H800 GPU的20个流式多处理器（SMs），使其负责服务器间通信而非计算，变相绕过了硬件对通信速度的限制。这种操作使用PTX语言实现，允许进行细粒度的优化，但这同时也带来了极高的开发复杂度和维护难度。

2. CUDA护城河的质疑

DeepSeek-V3的成功引发了人们对CUDA护城河的质疑。一些人认为，顶尖实验室能够有效利用任何GPU，而DeepSeek直接使用PTX进行优化，证明了CUDA并非不可逾越。甚至有人畅想，如果DeepSeek开源一个CUDA替代方案，将对行业产生巨大冲击。

3. PTX并非完全脱离CUDA

需要明确的是，PTX是CUDA编程模型中的中间表示，它仍然属于英伟达GPU架构的一部分。CUDA提供高级编程接口和工具链，简化开发流程，而PTX则作为桥梁连接高级语言和底层硬件。DeepSeek直接使用PTX进行优化，虽然实现了极致性能，但也增加了代码移植的难度，使其难以应用于不同型号的GPU。

4. DeepSeek的多平台支持

尽管DeepSeek主要使用PTX进行优化，但其已与AMD、华为等团队合作，支持其他硬件生态，这表明其并非完全依赖CUDA。

5. AI辅助编程的可能性

文章还探讨了AI辅助编程的可能性。DeepSeek-R1已证明能够显著提升大模型推理框架的运行速度，Llama.cpp项目中也有使用DeepSeek-R1生成的代码来优化WebAssembly的案例。这暗示了未来AI可能能够编写高质量的底层代码，甚至能够优化自身的代码，这将对软件开发产生深远的影响。

6. 总结

DeepSeek-V3的成功案例并非完全否定CUDA的价值，而是展现了在追求极致性能时，对底层硬件进行精细化控制的潜力。这同时也暗示着未来AI技术自身可能成为推动底层软件优化和硬件开发的重要力量。 DeepSeek的策略，虽然复杂且难以复制，但无疑为GPU编程和AI发展开辟了新的思路。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # AI加速器 # CUDA绕过 # DeepSeek # 新型AI架构 # 英伟达护城河

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？

“嫌CUDA太慢用汇编，量化交易员才干得出这事”

DeepSeek-V3引发的CUDA护城河之争

1. DeepSeek-V3的极致优化

2. CUDA护城河的质疑

3. PTX并非完全脱离CUDA

4. DeepSeek的多平台支持

5. AI辅助编程的可能性

6. 总结

联系作者

医疗具身智能发展到哪了？看这一篇综述就够了！

DeepSeek独立发现o1核心思路，OpenAI首席研究官亲自证实！奥特曼被迫发声

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点