“嫌CUDA太慢用汇编,量化交易员才干得出这事”
原标题:“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?
文章来源:量子位
内容字数:3318字
DeepSeek-V3引发的CUDA护城河之争
近日,DeepSeek-V3的惊人性能引发了业界对英伟达CUDA护城河的热议。DeepSeek-V3在硬件效率上超越Meta等公司10倍,其秘诀在于“从头开始重建一切”,并绕过了CUDA,使用更底层的PTX语言进行优化。
1. DeepSeek-V3的极致优化
DeepSeek-V3团队通过修改英伟达H800 GPU的20个流式多处理器(SMs),使其负责服务器间通信而非计算,变相绕过了硬件对通信速度的限制。这种操作使用PTX语言实现,允许进行细粒度的优化,但这同时也带来了极高的开发复杂度和维护难度。
2. CUDA护城河的质疑
DeepSeek-V3的成功引发了人们对CUDA护城河的质疑。一些人认为,顶尖实验室能够有效利用任何GPU,而DeepSeek直接使用PTX进行优化,证明了CUDA并非不可逾越。甚至有人畅想,如果DeepSeek开源一个CUDA替代方案,将对行业产生巨大冲击。
3. PTX并非完全脱离CUDA
需要明确的是,PTX是CUDA编程模型中的中间表示,它仍然属于英伟达GPU架构的一部分。CUDA提供高级编程接口和工具链,简化开发流程,而PTX则作为桥梁连接高级语言和底层硬件。DeepSeek直接使用PTX进行优化,虽然实现了极致性能,但也增加了代码移植的难度,使其难以应用于不同型号的GPU。
4. DeepSeek的多平台支持
尽管DeepSeek主要使用PTX进行优化,但其已与AMD、华为等团队合作,支持其他硬件生态,这表明其并非完全依赖CUDA。
5. AI辅助编程的可能性
文章还探讨了AI辅助编程的可能性。DeepSeek-R1已证明能够显著提升大模型推理框架的运行速度,Llama.cpp项目中也有使用DeepSeek-R1生成的代码来优化WebAssembly的案例。这暗示了未来AI可能能够编写高质量的底层代码,甚至能够优化自身的代码,这将对软件开发产生深远的影响。
6. 总结
DeepSeek-V3的成功案例并非完全否定CUDA的价值,而是展现了在追求极致性能时,对底层硬件进行精细化控制的潜力。这同时也暗示着未来AI技术自身可能成为推动底层软件优化和硬件开发的重要力量。 DeepSeek的策略,虽然复杂且难以复制,但无疑为GPU编程和AI发展开辟了新的思路。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破