国产开源模型,代码能力比肩 Claude,DeepSeek-V3 正式发布
性能比肩世界顶尖模型,速度跃升,价格更新
原标题:国产开源模型,代码能力比肩 Claude,DeepSeek-V3 正式发布
文章来源:Founder Park
内容字数:3160字
DeepSeek-V3:开源大模型的强力竞争者
DeepSeek 团队近日发布了其全新系列模型 DeepSeek-V3 的首个版本,并同步开源。该模型在多个评测中展现出强大的性能,与顶级闭源模型比肩,甚至在某些方面超越了它们,成为开源大模型领域的一匹黑马。
性能卓越,比肩顶级闭源模型
DeepSeek-V3 拥有 671B 参数,激活 37B,在 14.8T token 上进行了预训练。其性能在多项评测中超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在知识类任务、长文本处理、代码生成和数学推理等方面与 GPT-4o 和 Claude-3.5-Sonnet 旗鼓相当。尤其值得一提的是,DeepSeek-V3 在代码能力方面,远远领先于其他非 o1 类模型,在工程类代码场景中也逼近了 Claude-3.5-Sonnet。
显著提升的中文能力和生成速度
在中文能力方面,DeepSeek-V3 在 C-Eval 和代词消歧等评测集上与 Qwen2.5-72B 表现接近,但在事实知识 C-SimpleQA 上更为领先。此外,DeepSeek-V3 的生成速度提升了 3 倍,从 20 TPS 提升至 60 TPS,显著改善了用户体验。
开源权重和本地部署支持
DeepSeek-V3 采用 FP8 训练,并开源了原生 FP8 权重,方便社区进行本地部署。多个推理引擎,如 SGLang、LMDeploy、TensorRT-LLM 和 MindIE 等,都已支持 DeepSeek-V3 的推理。同时,DeepSeek 提供了 FP8 到 BF16 的转换脚本,进一步提升了模型的适配性和应用场景。
API 服务及价格调整
DeepSeek-V3 的 API 服务已同步更新,接口配置无需改动。为了持续提供更好的服务,API 价格进行了调整,但同时提供了长达 45 天的优惠期,从即日起至 2025 年 2 月 8 日,用户可以享受优惠价格。
开源精神与未来展望
DeepSeek 秉持开源精神,致力于普惠 AGI。DeepSeek-V3 是其在模型预训练方面的阶段性成果,未来将在此基础上继续开发深度思考、多模态等功能,并持续与社区分享最新成果。
总而言之,DeepSeek-V3 的发布对开源大模型领域具有重大意义,它不仅展现了国内团队在 AI 领域的强大实力,也为开源社区带来了一个性能卓越、易于部署的强大工具,进一步缩小了开源模型与闭源模型之间的差距。
联系作者
文章来源:Founder Park
作者微信:
作者简介:来自极客公园,专注与科技创业者聊「真问题」。