谈谈DeepSeek-v3提到的基础设施演进

DeepSeek-v3将算法与基础设施融合,推动硬件架构创新。

谈谈DeepSeek-v3提到的基础设施演进

原标题:谈谈DeepSeek-v3提到的基础设施演进
文章来源:智猩猩GenAI
内容字数:5247字

第四届全球自动驾驶峰会及DeepSeek-v3技术解读

文章首先预告了1月14日在北京举办的第四届全球自动驾驶峰会,并介绍了峰会的议程安排。随后,作者以DeepSeek-v3为例,深入探讨了算法与底层基础设施紧密结合的重要性,以及当前大模型团队在算法与基础设施方面存在的割裂现象。

1. 算法与基础设施的融合:DeepSeek-v3的成功案例

作者认为,DeepSeek团队能够成功融合算法和基础设施,得益于团队成员中拥有丰富的OI竞赛经验,具备深厚的计算优化能力和对处理器体系结构的深入理解。这与许多算法工程师代码能力有限的现状形成鲜明对比。作者还幽默地将量化训练(Quantization)与“渣”(za)联系起来,并强调算力不应仅仅是约束,而应成为可以联合优化的变量。

2. 算力与算法协同发展的经验

作者以阿里妈妈团队在推荐系统中的经验以及量化交易领域为例,进一步阐述了算力与算法协同发展的必要性。在高频交易中,团队甚至会采用家用CPU超频等极端手段来提升运算速度,这体现了对算力极致追求的必要性。

3. 对Transformer架构及AGI的思考

作者表达了对当前Transformer架构的质疑,认为其依赖于大量算力的Scaling Law本质上存在错误,并非通往AGI的最终途径。因此,作者更关注底层算力优化和顶层算法背后的数学原理,例如范畴论、代数拓扑和代数几何等。

4. 底层算力优化和数学基础研究

作者在底层算力方面,专注于GPU微架构分析、Tensor运算以及AI加速器高速互联等;在数学方面,则致力于研究范畴论、代数拓扑和代数几何在人工智能领域的应用,并提及了TOPOS视角下的多模态大模型和Grothendieck图神经网络等前沿研究。

5. 大模型的体系架构演进与类比

作者将大模型的token预测过程类比于CPU指令执行,并认为MoE和强化学习等技术实质上是在token预测上进行发散,类似于CPU的分支预测器。作者还提出,当前的GPU TensorCore/Cuda Core构成执行引擎,而Grothendieck图神经网络等代数结构可以作为模型的控制路径,这可能是实现类图灵完备大模型的一条途径。

6. DeepSeek-v3的硬件优化策略及未来硬件需求

作者分析了DeepSeek-v3在H800被的情况下,如何通过避免TP并行以及对MoE的AlltoAll进行极致优化(例如PXN和IBGDA等)来提升效率。同时,作者也展望了未来硬件需求,例如通信协处理器以及统一ScaleOut和ScaleUp网络的计算单元,并指出DeepSeek对未来硬件的演进方向与作者几年前提出的NetDAM框架高度契合。

7. NetDAM框架的优势与行业现状

作者介绍了其在Cisco和第四范式期间参与开发的NetDAM框架,该框架能够融合ScaleOut和ScaleUp通信,并支持多种通信原语,效率远超RoCE。作者最后总结指出,虽然NetDAM框架在技术上具有显著优势,但由于各个厂商自身的战略布局和利益考量,其应用和普及仍面临挑战。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...