雷军开千万年薪挖的人来自怎样的团队?
原标题:全网都在扒的DeepSeek团队,是清北应届生撑起一片天
文章来源:量子位
内容字数:6492字
DeepSeek:一支由年轻人才驱动,极度重视软硬件协同的AI团队
本文总结了DeepSeek团队的构成、运作模式以及其取得的突出成就,特别是其年轻化和软硬件协同的特色。
年轻化团队:清北人才的聚集地
DeepSeek团队的核心成员以清华、北大等高校的应届生和在读生为主,其中不乏获得博士学位论文奖项的优秀人才。这些年轻的研究者参与了DeepSeek从v1到v3版本的全过程,并做出了许多关键性创新,例如MLA新型注意力机制和GRPO强化学习对齐算法。
关键创新:MLA和GRPO
DeepSeek-V2的成功破圈,很大程度上归功于MLA(Multi-head Latent Attention)新型注意力机制的提出,它显著降低了计算量和推理显存。高华佐和曾旺丁是MLA架构的关键贡献者。DeepSeekMath提出的GRPO(Group Relative Policy Optimization)算法,也在业内引起了广泛关注,甚至被阿里Qwen 2.5采用。该算法由邵智宏(清华)、朱琪豪(北大)、Wang Peyi(北大)等在DeepSeek实习期间完成。
核心成员及贡献:
文章详细介绍了多位DeepSeek核心成员及其贡献,包括:高华佐(北大物理系毕业)、曾旺丁(北邮,导师张洪刚)、邵智宏(清华,师从黄民烈教授)、朱琪豪(北大,师从熊英飞和张路教授,发表CCF-A类论文16篇)、Wang Peyi(北大,师从穗志方教授)、代达劢(北大,师从穗志方教授,获得EMNLP 2023最佳长论文奖等)、王炳宣(北大)、赵成钢(清华,世界大学生超算竞赛三冠王)等。这些成员在模型算法和硬件工程方面都做出了重要贡献。
软硬件协同:1/11算力成就DeepSeek-v3
DeepSeek团队非常重视模型算法和硬件工程的配合。DeepSeek v3论文有200位作者,其中许多人专注于优化硬件,例如通过软硬件协同设计,利用幻方AI的萤火2号万卡集群,以Llama 3 405B的1/11算力训练出性能更高的DeepSeek-v3。
组织架构:类似OpenAI的扁平化管理
DeepSeek的组织架构类似OpenAI,采用扁平化管理,不设前置岗位分工,鼓励自然分工和资源共享。每个人都可以随时调用训练集群,只要有几个成员感兴趣就可以启动一个项目。这种灵活的组织结构,加上对人才能力而非经验的重视,使得DeepSeek能够快速响应市场需求,并做出突破性创新。
实习生贡献:
文章还提到了DeepSeek实习生在3D生成和数学定理证明等领域做出的重要贡献,例如清华博士生孙景翔和中山大学辛华剑。
总而言之,DeepSeek是一支年轻、充满活力、并且极度重视软硬件协同的AI团队。其独特的组织架构和人才培养模式,使其能够在激烈的AI竞争中脱颖而出,并取得了令人瞩目的成就。其发展模式或许为中国AI行业提供了一种新的参考。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破