一家中国 AI 初创公司创建出被用户称作 “真正的‘Open’AI ”的人工智能模型。
原标题:把训练成本打下来99%!吊打GPT又“征服”OpenAI创始成员,DeepSeek“国产之光”实至名归?
文章来源:AI前线
内容字数:6400字
中国AI初创公司DeepSeek发布强大开源模型DeepSeek-V3
中国人工智能初创公司DeepSeek发布了其最新的大型语言模型DeepSeek-V3,并将其开源。该模型参数规模达到6710亿,但却以极低的训练成本(不到600万美元)取得了优异的性能,在多个基准测试中超越了包括Meta的Llama 3.1、OpenAI的GPT-4o和阿里巴巴的Qwen 2.5等模型,甚至与闭源模型GPT-4o和Claude-3.5-Sonnet性能相当,被用户誉为“真正的‘Open’AI”。
1. DeepSeek-V3的卓越性能
DeepSeek-V3在编码竞赛平台Codeforces以及Aider Polyglot测试中均取得领先成绩。其在以中文和数学为中心的基准测试中表现尤其突出,例如在Math-500测试中得分高达90.2。虽然在一些以英语为中心的测试中略逊于GPT-4o,但整体性能已达到业界领先水平。DeepSeek V3的优势在于其高效的训练和推理能力,这得益于其采用的混合专家架构和多项技术创新。
2. 高效的训练与推理
DeepSeek-V3基于多头潜在注意力(MLA)与DeepSeekMoE架构,并结合辅助无损负载均衡策略和多 token 预测(MTP)技术,实现了高效的训练和推理。MTP技术将模型的执行速度提高了三倍,每秒可生成60个 token。通过算法和工程优化,包括FP8混合精度训练框架和DualPipe算法,DeepSeek-V3的训练成本远低于其他同级别模型,仅需约557万美元。
3. 低廉的训练成本引发的讨论
DeepSeek-V3的低训练成本引发了业界广泛关注。OpenAI创始人之一Andrej Karpathy对如此低的成本表示震惊,认为这在资源受限的环境下是一个令人印象深刻的成就。一些专家认为,这表明在人工智能领域,算法和工程优化可能比单纯的算力投入更重要,也可能暗示着对高端半导体出口禁令适得其反,反而促进了中国研究人员的创新。
4. DeepSeek-V3的商业化和用户反馈
DeepSeek-V3的代码已通过GitHub基于MIT许可开源,用户也可以通过DeepSeek Chat平台测试该模型并访问API进行商业使用。DeepSeek-V3的定价策略也获得了用户好评,被认为具有极高的性价比。用户对其理解能力和解决复杂问题的能力表示赞赏,甚至有用户用其解答了此前其他模型无法解决的难题。
5. 未来展望
DeepSeek-V3的出现标志着开源大型语言模型发展的新阶段,其低廉的训练成本和卓越的性能为更广泛的应用提供了可能性。 未来,DeepSeek-V3的进一步发展和应用值得期待。
联系作者
文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。