原标题:Deepseek v3 实测来了!智商,情商不存在,自信退出价格战
文章来源:夕小瑶科技说
内容字数:6464字
DeepSeek V3:高智商低情商的国产大模型新秀
近日,国产大模型DeepSeek发布了其最新版本V3,引发业内广泛关注。这款模型以其强大的性能和相对低廉的成本,成为开源大模型领域的新标杆,但也暴露出在情商方面存在的不足。
性能突破与价格上涨
DeepSeek V3在多个基准测试中表现出色,在数学、代码和部分多语言能力方面超越了包括LLaMA-3.1 405B在内的多个开源模型,甚至与闭源模型Claude 3.5 Sonnet和GPT-4o不相上下。然而,其API价格也相应上涨,尽管如此,其价格仍远低于Claude 3.5 Sonnet。
智商测试:惊艳表现
实际测试中,DeepSeek V3在复杂的编程题和部分数学题上表现令人惊艳,成功解决了难倒众多其他模型的问题,展现了其强大的代码能力和数学推理能力。即使在一些复杂的数学竞赛题上,虽然不如新一代推理范式模型,但在简单的数学题上表现优秀,甚至在图片识别题上也出乎意料地取得了不错的成绩。
情商测试:仍需提升
然而,DeepSeek V3在情商测试中表现欠佳,未能正确应对一些需要理解人类情感和社会常识的题目,凸显了其在情商方面的不足。这与追求安全性和避免偏见的目标有关,但也成为其一个明显的短板。
技术细节:高效训练
DeepSeek V3的成功与其高效的训练方法密切相关。它仅使用2048块GPU,耗时两个月,成本约557.6万美元,就完成了训练,这远低于其他同等性能模型的训练成本,也证明了资源利用和算法优化的重要性。其核心技术包括MoE架构、YaRN技术以及对数学和编程样本比例的提升。
结论:高性能与高性价比的平衡
DeepSeek V3的出现,改变了大模型领域“算力决定一切”的传统观念,证明了在资源受限的情况下,通过优化模型架构、训练策略和数据筛选,也能取得突破性的进展。虽然在情商方面仍有待提升,但其高性能、高性价比的特点,使其成为开源大模型领域一颗冉冉升起的新星。
联系作者
文章来源:夕小瑶科技说
作者微信:
作者简介:低负担解码AI世界,硬核也可爱!聚集35万AI发烧友、开发者和从业者,广泛覆盖互联网大厂中高管、AI公司创始人和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189