超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，编程能力暴增近31％

AIGC动态2年前 (2024)发布机器之心

开源大模型又强了一大截。

原标题：超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，编程能力暴增近31％
文章来源：机器之心
内容字数：2466字

DeepSeek-V3-Base：开源MoE模型强势来袭

近日，DeepSeek AI公司开源了其最新的混合专家(MoE)语言模型DeepSeek-V3-Base，参数量达685B，引发了AI社区的广泛关注。该模型采用256个专家，sigmoid路由方式，每次选择前8个专家进行计算，展现出极高的稀疏性，从而在性能和效率上取得平衡。

1. 模型架构与性能

DeepSeek-V3-Base基于MoE架构，拥有巨大的参数量和显著的稀疏性。Aider多语言编程测评结果显示，其性能仅次于OpenAI o1-2024-12-17 (high)，超越了Claude-3.5-sonnet-20241022、Gemini-Exp-1206等多个竞品模型，以及DeepSeek公司前代模型DeepSeek Chat V2.5。与V2.5相比，V3的编程性能提升了近31%，达到48.4%。此外，疑似流出的LiveBench基准测试结果也显示，DeepSeek-V3在整体性能、推理、编程、数学、数据分析等多个方面都具有很强的竞争力，超越了Gemini-2.0-flash-exp和Claude 3.5 Sonnet等模型。

2. 与前代模型的差异

DeepSeek V3与V2版本的主要区别在于模型规模和激活函数。V3是V2的“放大版”，其词汇量、隐藏层大小、中间层大小、隐藏层数量、注意力头数量以及最大位置嵌入均显著增加。此外，V3采用了sigmoid函数作为模型评分函数，而V2则使用了softmax函数。

3. 社区反馈与展望

许多网友认为DeepSeek-V3-Base是Claude的强劲对手，甚至可以替代Claude 3.5。开源模型的快速发展也令许多人感叹，其进步速度惊人，并预测2025年将成为AI领域具有里程碑意义的一年。DeepSeek-V3-Base的开源，为研究者和开发者提供了宝贵的资源，也推动了开源大模型的发展。

4. 总结

DeepSeek-V3-Base的出现，标志着开源MoE模型在性能上取得了显著突破。其强大的性能和开源属性，将对大模型领域产生深远的影响，并促进AI技术的进一步发展和应用。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # AI编程能力提升 # Claude35性能提升 # DeepSeek-V3-Base性能 # 大型语言模型性能改进 # 开源编程模型比较

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，编程能力暴增近31％

开源大模型又强了一大截。

DeepSeek-V3-Base：开源MoE模型强势来袭

1. 模型架构与性能

2. 与前代模型的差异

3. 社区反馈与展望

4. 总结

联系作者

围猎Suno！国产AI音乐三巨头：华语创作称雄，MV一键生成全球首创

中国信通院联合淘天集团发布全球首个中文安全领域事实性基准评测集，仅三个大模型达及格线

相关文章

暂无评论