超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%

开源大模型又强了一大截。

超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%

原标题:超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%
文章来源:机器之心
内容字数:2466字

DeepSeek-V3-Base:开源MoE模型强势来袭

近日,DeepSeek AI公司开源了其最新的混合专家(MoE)语言模型DeepSeek-V3-Base,参数量达685B,引发了AI社区的广泛关注。该模型采用256个专家,sigmoid路由方式,每次选择前8个专家进行计算,展现出极高的稀疏性,从而在性能和效率上取得平衡。

1. 模型架构与性能

DeepSeek-V3-Base基于MoE架构,拥有巨大的参数量和显著的稀疏性。Aider多语言编程测评结果显示,其性能仅次于OpenAI o1-2024-12-17 (high),超越了Claude-3.5-sonnet-20241022、Gemini-Exp-1206等多个竞品模型,以及DeepSeek公司前代模型DeepSeek Chat V2.5。与V2.5相比,V3的编程性能提升了近31%,达到48.4%。此外,疑似流出的LiveBench基准测试结果也显示,DeepSeek-V3在整体性能、推理、编程、数学、数据分析等多个方面都具有很强的竞争力,超越了Gemini-2.0-flash-exp和Claude 3.5 Sonnet等模型。

2. 与前代模型的差异

DeepSeek V3与V2版本的主要区别在于模型规模和激活函数。V3是V2的“放大版”,其词汇量、隐藏层大小、中间层大小、隐藏层数量、注意力头数量以及最大位置嵌入均显著增加。此外,V3采用了sigmoid函数作为模型评分函数,而V2则使用了softmax函数。

3. 社区反馈与展望

许多网友认为DeepSeek-V3-Base是Claude的强劲对手,甚至可以替代Claude 3.5。开源模型的快速发展也令许多人感叹,其进步速度惊人,并预测2025年将成为AI领域具有里程碑意义的一年。DeepSeek-V3-Base的开源,为研究者和开发者提供了宝贵的资源,也推动了开源大模型的发展。

4. 总结

DeepSeek-V3-Base的出现,标志着开源MoE模型在性能上取得了显著突破。其强大的性能和开源属性,将对大模型领域产生深远的影响,并促进AI技术的进一步发展和应用。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...