国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

AIGC动态1年前 (2024)发布量子位

585 0 0

“有限算力下的美妙工程”

原标题：国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开
文章来源：量子位
内容字数：6534字

DeepSeek V3：高性能、低成本的开源大模型

本文总结了DeepSeek V3大语言模型的发布信息，该模型以其高性能、低成本和完全开源的特点引发了业内广泛关注。

模型性能与成本
DeepSeek V3是一个参数量为671B的MoE模型，激活37B，在14.8T高质量token上进行了预训练。其性能超越了Llama 3.1 405B等开源模型，甚至与GPT-4o和Claude 3.5 Sonnet等顶级闭源模型不相上下。更令人惊叹的是，其训练成本仅为Llama 3 405B的1/11，约为557.6万美元。而其API价格也远低于竞争对手，仅为Claude 3.5 Sonnet的9%。DeepSeek V3在性能和成本之间取得了最佳平衡，成为性价比最高的模型之一。
高效的训练策略
DeepSeek V3的低成本训练归功于其在算法、框架和硬件方面的协同优化。具体包括：创新的负载均衡策略、无辅助损失的负载均衡策略、多Token预测目标（MTP）、FP8混合精度训练框架、DualPipe高效流水线并行算法以及高效的跨节点all-to-all通信内核等。这些策略使得DeepSeek V3的训练时间大幅缩短，仅用了不到2个月，耗费了约280万GPU小时。
关键技术细节
DeepSeek V3的MoE由256个路由专家和1个共享专家组成，每个token会激活8个专家，并确保每个token最多被发送到4个节点。模型还引入了冗余专家部署策略，以实现推理阶段的负载均衡。此外，DeepSeek V3还将推理能力从长思维链模型中蒸馏到标准模型上，显著提高了推理性能。
开源与应用
DeepSeek V3已完全开源，包括原生FP8权重和从FP8到BF16的转换脚本。多个框架已支持FP8或BF16推理。用户可以通过官网与模型进行对话，并通过API进行访问。其部署也十分便捷，只需几行代码即可部署到Gradio。
实测效果与评价
实测结果显示，DeepSeek V3在多个测试中表现出色，例如准确回答了关于自身版本的问题，并成功解决了复杂的推理任务。业内专家对DeepSeek V3给予了高度评价，认为其是“优雅”的、“黑科技”的，并称其降低了有限算力预算下进行模型预训练的门槛。
未来展望
目前DeepSeek V3暂不支持多模态输入输出，但其高性能、低成本和完全开源的特点使其具有巨大的发展潜力。未来，DeepSeek V3有望在更多领域得到广泛应用。