Deepseek v3 实测来了！智商，情商不存在，自信退出价格战

AIGC动态2年前 (2024)发布夕小瑶科技说

Deepseek v3 实测来了！智商牛逼，情商不存在，自信退出价格战

原标题：Deepseek v3 实测来了！智商，情商不存在，自信退出价格战
文章来源：夕小瑶科技说
内容字数：6464字

DeepSeek V3：高智商低情商的国产大模型新秀

近日，国产大模型DeepSeek发布了其最新版本V3，引发业内广泛关注。这款模型以其强大的性能和相对低廉的成本，成为开源大模型领域的新标杆，但也暴露出在情商方面存在的不足。

性能突破与价格上涨
DeepSeek V3在多个基准测试中表现出色，在数学、代码和部分多语言能力方面超越了包括LLaMA-3.1 405B在内的多个开源模型，甚至与闭源模型Claude 3.5 Sonnet和GPT-4o不相上下。然而，其API价格也相应上涨，尽管如此，其价格仍远低于Claude 3.5 Sonnet。
智商测试：惊艳表现
实际测试中，DeepSeek V3在复杂的编程题和部分数学题上表现令人惊艳，成功解决了难倒众多其他模型的问题，展现了其强大的代码能力和数学推理能力。即使在一些复杂的数学竞赛题上，虽然不如新一代推理范式模型，但在简单的数学题上表现优秀，甚至在图片识别题上也出乎意料地取得了不错的成绩。
情商测试：仍需提升
然而，DeepSeek V3在情商测试中表现欠佳，未能正确应对一些需要理解人类情感和社会常识的题目，凸显了其在情商方面的不足。这与追求安全性和避免偏见的目标有关，但也成为其一个明显的短板。
技术细节：高效训练
DeepSeek V3的成功与其高效的训练方法密切相关。它仅使用2048块GPU，耗时两个月，成本约557.6万美元，就完成了训练，这远低于其他同等性能模型的训练成本，也证明了资源利用和算法优化的重要性。其核心技术包括MoE架构、YaRN技术以及对数学和编程样本比例的提升。
结论：高性能与高性价比的平衡
DeepSeek V3的出现，改变了大模型领域“算力决定一切”的传统观念，证明了在资源受限的情况下，通过优化模型架构、训练策略和数据筛选，也能取得突破性的进展。虽然在情商方面仍有待提升，但其高性能、高性价比的特点，使其成为开源大模型领域一颗冉冉升起的新星。