“有限算力下的美妙工程”
原标题:国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开
文章来源:量子位
内容字数:6534字
DeepSeek V3:高性能、低成本的开源大模型
本文总结了DeepSeek V3大语言模型的发布信息,该模型以其高性能、低成本和完全开源的特点引发了业内广泛关注。
模型性能与成本
DeepSeek V3是一个参数量为671B的MoE模型,激活37B,在14.8T高质量token上进行了预训练。其性能超越了Llama 3.1 405B等开源模型,甚至与GPT-4o和Claude 3.5 Sonnet等顶级闭源模型不相上下。更令人惊叹的是,其训练成本仅为Llama 3 405B的1/11,约为557.6万美元。而其API价格也远低于竞争对手,仅为Claude 3.5 Sonnet的9%。DeepSeek V3在性能和成本之间取得了最佳平衡,成为性价比最高的模型之一。
高效的训练策略
DeepSeek V3的低成本训练归功于其在算法、框架和硬件方面的协同优化。具体包括:创新的负载均衡策略、无辅助损失的负载均衡策略、多Token预测目标(MTP)、FP8混合精度训练框架、DualPipe高效流水线并行算法以及高效的跨节点all-to-all通信内核等。这些策略使得DeepSeek V3的训练时间大幅缩短,仅用了不到2个月,耗费了约280万GPU小时。
关键技术细节
DeepSeek V3的MoE由256个路由专家和1个共享专家组成,每个token会激活8个专家,并确保每个token最多被发送到4个节点。模型还引入了冗余专家部署策略,以实现推理阶段的负载均衡。此外,DeepSeek V3还将推理能力从长思维链模型中蒸馏到标准模型上,显著提高了推理性能。
开源与应用
DeepSeek V3已完全开源,包括原生FP8权重和从FP8到BF16的转换脚本。多个框架已支持FP8或BF16推理。用户可以通过官网与模型进行对话,并通过API进行访问。其部署也十分便捷,只需几行代码即可部署到Gradio。
实测效果与评价
实测结果显示,DeepSeek V3在多个测试中表现出色,例如准确回答了关于自身版本的问题,并成功解决了复杂的推理任务。业内专家对DeepSeek V3给予了高度评价,认为其是“优雅”的、“黑科技”的,并称其降低了有限算力预算下进行模型预训练的门槛。
未来展望
目前DeepSeek V3暂不支持多模态输入输出,但其高性能、低成本和完全开源的特点使其具有巨大的发展潜力。未来,DeepSeek V3有望在更多领域得到广泛应用。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破