深入讲解DeepSeek V3/R1架构,以及PTX与CUDA~
原标题:「DeepSeek大解读」系列公开课启动!前两期深入讲解DeepSeek V3/R1架构,以及PTX与CUDA
文章来源:智猩猩GenAI
内容字数:1959字
DeepSeek大模型引爆全球,开启“龙卷风”式发展
文章主要介绍了DeepSeek公司及其发布的基座模型V3和推理模型R1,这两个模型被誉为“国运级创新”,在全球范围内引发巨大反响,并对人工智能产业产生了深远影响。文章重点阐述了DeepSeek的技术创新及其带来的影响,并介绍了智猩猩策划的“DeepSeek大解读”系列公开课。
1. DeepSeek:大模型领域的“最强挑战者”
DeepSeek公司凭借其在算法和工程方面的创新,突破了算力,在全球范围内迅速崛起,成为OpenAI最强劲的竞争对手。其开源的推理模型R1更是成为了新晋开源王者,DeepSeek在大模型领域以及AGI进程的探索中跻身第一阵营。在国内,DeepSeek打破了现有格局,遥遥领先,为国内人工智能产业带来了方向和信心。
2. V3和R1模型的创新
DeepSeek的成功源于其在V3和R1模型中所做的创新工作。文章指出,这些创新工作才刚刚开始对国内乃至全球的技术和产业产生影响。
3. “DeepSeek大解读”系列公开课
为了深入解读DeepSeek的技术创新和价值,智猩猩策划了“DeepSeek大解读”系列公开课,邀请学术界和工业界的专家进行讲解。公开课采用直播形式,每期包含主讲和问答环节。
4. 第一期:MoE架构深度分析
第一期公开课由中存算董事长陈巍博士主讲,主题为《DeepSeek V3/R1架构的深度分析与深度思考》。陈博士将从MoE模型架构和低比特训练框架创新的角度,深入分析V3和R1的架构、训练流程和训练框架设计思想,并对大模型发展路线和算力芯片范式共生进行深度思考。时间为2月11日15点。
5. 第二期:PTX与CUDA详解
第二期公开课由中科院计算所处理器芯片全国重点实验室副研究员赵家程博士主讲,主题为《PTX与CUDA:性能、兼容性与生态系统》。由于DeepSeek绕开NVIDIA CUDA垄断引发争议,本期将对GPGPU底层编程方法及其在LLM训练与推理中的应用进行讲解。时间为2月13日19点。
6. 报名方式
感兴趣的读者可以通过扫描二维码添加小助手“小石头”,发送“DeepSeek”报名参加直播,并可申请加入第一期或第二期的交流群,与更多同仁探讨相关话题。
7. 后续规划
“DeepSeek大解读”系列公开课后续还将推出更多主题,敬请期待。
总而言之,DeepSeek的出现,标志着大模型领域竞争格局的重大变化,其技术创新及其对产业的影响值得持续关注。“DeepSeek大解读”系列公开课为业内人士深入了解DeepSeek提供了宝贵机会。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下账号,专注于生成式人工智能,主要分享技术文章、论文成果与产品信息。