全网都在扒的DeepSeek团队,是清北应届生撑起一片天

AIGC动态1个月前发布 量子位
4 0 0

雷军开千万年薪挖的人来自怎样的团队?

全网都在扒的DeepSeek团队,是清北应届生撑起一片天

原标题:全网都在扒的DeepSeek团队,是清北应届生撑起一片天
文章来源:量子位
内容字数:6492字

DeepSeek:一支由年轻人才驱动,极度重视软硬件协同的AI团队

本文总结了DeepSeek团队的构成、运作模式以及其取得的突出成就,特别是其年轻化和软硬件协同的特色。

  1. 年轻化团队:清北人才的聚集地

    DeepSeek团队的核心成员以清华、北大等高校的应届生和在读生为主,其中不乏获得博士学位论文奖项的优秀人才。这些年轻的研究者参与了DeepSeek从v1到v3版本的全过程,并做出了许多关键性创新,例如MLA新型注意力机制和GRPO强化学习对齐算法。

  2. 关键创新:MLA和GRPO

    DeepSeek-V2的成功破圈,很大程度上归功于MLA(Multi-head Latent Attention)新型注意力机制的提出,它显著降低了计算量和推理显存。高华佐和曾旺丁是MLA架构的关键贡献者。DeepSeekMath提出的GRPO(Group Relative Policy Optimization)算法,也在业内引起了广泛关注,甚至被阿里Qwen 2.5采用。该算法由邵智宏(清华)、朱琪豪(北大)、Wang Peyi(北大)等在DeepSeek实习期间完成。

  3. 核心成员及贡献:

    文章详细介绍了多位DeepSeek核心成员及其贡献,包括:高华佐(北大物理系毕业)、曾旺丁(北邮,导师张洪刚)、邵智宏(清华,师从黄民烈教授)、朱琪豪(北大,师从熊英飞和张路教授,发表CCF-A类论文16篇)、Wang Peyi(北大,师从穗志方教授)、代达劢(北大,师从穗志方教授,获得EMNLP 2023最佳长论文奖等)、王炳宣(北大)、赵成钢(清华,世界大学生超算竞赛三冠王)等。这些成员在模型算法和硬件工程方面都做出了重要贡献。

  4. 软硬件协同:1/11算力成就DeepSeek-v3

    DeepSeek团队非常重视模型算法和硬件工程的配合。DeepSeek v3论文有200位作者,其中许多人专注于优化硬件,例如通过软硬件协同设计,利用幻方AI的萤火2号万卡集群,以Llama 3 405B的1/11算力训练出性能更高的DeepSeek-v3。

  5. 组织架构:类似OpenAI的扁平化管理

    DeepSeek的组织架构类似OpenAI,采用扁平化管理,不设前置岗位分工,鼓励自然分工和资源共享。每个人都可以随时调用训练集群,只要有几个成员感兴趣就可以启动一个项目。这种灵活的组织结构,加上对人才能力而非经验的重视,使得DeepSeek能够快速响应市场需求,并做出突破性创新。

  6. 实习生贡献:

    文章还提到了DeepSeek实习生在3D生成和数学定理证明等领域做出的重要贡献,例如清华博士生孙景翔和中山大学辛华剑。

总而言之,DeepSeek是一支年轻、充满活力、并且极度重视软硬件协同的AI团队。其独特的组织架构和人才培养模式,使其能够在激烈的AI竞争中脱颖而出,并取得了令人瞩目的成就。其发展模式或许为中国AI行业提供了一种新的参考。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...