自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。

自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言

原标题:自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言
文章来源:机器之心
内容字数:9642字

DeepSeek:与误解

本文总结了Tanishq Mathew Abraham针对DeepSeek及其开源模型R1的诸多误解进行的反驳,为读者提供更清晰的认知。

1. DeepSeek并非突然出现

作者指出,DeepSeek并非一夜之间冒出的公司,早在R1发布前几个月就已预告,并在2023年11月发布了第一个开源模型DeepSeek-Coder。其发展速度在AI领域属于正常范畴,并非可疑。

2. 训练成本并非虚报

关于DeepSeek仅花费600万美元训练模型的质疑,作者解释了该数字源自DeepSeek-V3的论文,而R1是在V3基础上进行强化学习训练,额外成本有限。作者认为,基于GPU成本、数据集规模和模型规模的分析,该估算结果合理。同时,其他AI实验室在实验和人员薪资方面的额外支出往往被忽略,导致比较不公平。

3. 成本低并不意味着浪费

DeepSeek的高训练效率并不意味着其他美国AGI公司在浪费钱。作者解释了AI领域的扩展定律(Scaling Laws),即更多的计算资源通常会带来更好的性能。高效的模型能用更少的资源达到相同效果,但更多的资源仍然能带来更好的结果。AGI公司对扩展定律的长期有效性抱有信心,因此持续投入更多资源是合理的。

4. DeepSeek并非没有创新

作者列举了DeepSeek在模型设计和训练方面的创新,包括Multi-latent注意力机制(MHA)、GRPO强化学习算法和DualPipe多GPU训练方法。这些创新都已开源,对AI社区有益。

5. DeepSeek并非单纯抄袭ChatGPT

关于DeepSeek从ChatGPT“蒸馏”知识的说法,作者认为这种说法过于简单化,忽略了DeepSeek在工程、效率和架构方面的实际创新。即使DeepSeek使用了ChatGPT生成的文本进行训练,也并不意味着其成就因此被减损。

6. 中美AI竞争加剧

作者认为,DeepSeek的出现使得中国在AI领域的竞争力更加不容忽视,但美国顶尖AI实验室仍保持领先优势。中美两国都在AI研发上投入巨资,竞争将持续加剧。开源技术分享是否会带来劣势,目前尚不明确。

7. 结论

作者总结道,一部分人试图淡化DeepSeek的成就,而另一些人则反应过度。OpenAI等公司仍处于领先地位,但DeepSeek的R1模型确实令人印象深刻,其成就值得肯定。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...