把训练成本打下来99%！吊打GPT又“征服”OpenAI创始成员，DeepSeek“国产之光”实至名归？

AIGC动态2年前 (2024)发布 AI前线

一家中国 AI 初创公司创建出被用户称作 “真正的‘Open’AI ”的人工智能模型。

原标题：把训练成本打下来99%！吊打GPT又“征服”OpenAI创始成员，DeepSeek“国产之光”实至名归？
文章来源：AI前线
内容字数：6400字

中国AI初创公司DeepSeek发布强大开源模型DeepSeek-V3

中国人工智能初创公司DeepSeek发布了其最新的大型语言模型DeepSeek-V3，并将其开源。该模型参数规模达到6710亿，但却以极低的训练成本（不到600万美元）取得了优异的性能，在多个基准测试中超越了包括Meta的Llama 3.1、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5等模型，甚至与闭源模型GPT-4o和Claude-3.5-Sonnet性能相当，被用户誉为“真正的‘Open’AI”。

1. DeepSeek-V3的卓越性能

DeepSeek-V3在编码竞赛平台Codeforces以及Aider Polyglot测试中均取得领先成绩。其在以中文和数学为中心的基准测试中表现尤其突出，例如在Math-500测试中得分高达90.2。虽然在一些以英语为中心的测试中略逊于GPT-4o，但整体性能已达到业界领先水平。DeepSeek V3的优势在于其高效的训练和推理能力，这得益于其采用的混合专家架构和多项技术创新。

2. 高效的训练与推理

DeepSeek-V3基于多头潜在注意力（MLA）与DeepSeekMoE架构，并结合辅助无损负载均衡策略和多 token 预测（MTP）技术，实现了高效的训练和推理。MTP技术将模型的执行速度提高了三倍，每秒可生成60个 token。通过算法和工程优化，包括FP8混合精度训练框架和DualPipe算法，DeepSeek-V3的训练成本远低于其他同级别模型，仅需约557万美元。

3. 低廉的训练成本引发的讨论

DeepSeek-V3的低训练成本引发了业界广泛关注。OpenAI创始人之一Andrej Karpathy对如此低的成本表示震惊，认为这在资源受限的环境下是一个令人印象深刻的成就。一些专家认为，这表明在人工智能领域，算法和工程优化可能比单纯的算力投入更重要，也可能暗示着对高端半导体出口禁令适得其反，反而促进了中国研究人员的创新。

4. DeepSeek-V3的商业化和用户反馈

DeepSeek-V3的代码已通过GitHub基于MIT许可开源，用户也可以通过DeepSeek Chat平台测试该模型并访问API进行商业使用。DeepSeek-V3的定价策略也获得了用户好评，被认为具有极高的性价比。用户对其理解能力和解决复杂问题的能力表示赞赏，甚至有用户用其解答了此前其他模型无法解决的难题。

5. 未来展望

DeepSeek-V3的出现标志着开源大型语言模型发展的新阶段，其低廉的训练成本和卓越的性能为更广泛的应用提供了可能性。未来，DeepSeek-V3的进一步发展和应用值得期待。

联系作者

文章来源：AI前线
作者微信：
作者简介：面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

阅读原文

# AIGC动态 # AI模型训练效率 # DeepSeek # OpenAI竞争对手 # 国产AI模型 # 大模型训练成本降低

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

把训练成本打下来99%！吊打GPT又“征服”OpenAI创始成员，DeepSeek“国产之光”实至名归？

一家中国 AI 初创公司创建出被用户称作 “真正的‘Open’AI ”的人工智能模型。

中国AI初创公司DeepSeek发布强大开源模型DeepSeek-V3

1. DeepSeek-V3的卓越性能

2. 高效的训练与推理

3. 低廉的训练成本引发的讨论

4. DeepSeek-V3的商业化和用户反馈

5. 未来展望

联系作者

首篇「角色扮演AI」综述！复旦等提出大模型三层人格分类框架：群体、角色、个性化 | TMLR

英伟达CUDA的护城河到底有多深？

相关文章

暂无评论