原标题:50 美元复制 DeepSeek?揭开李飞飞团队的「省钱」的秘密
文章来源:爱范儿
内容字数:3335字
低成本AI模型训练的突破与
近期,关于低成本训练高性能AI模型的新闻引发热议,特别是“50美元复制DeepSeek R1”的说法一度冲上热搜。本文将深入探讨这一背后的,并分析低成本AI模型训练的未来发展趋势。
1. “50美元复制”的
李飞飞团队的S1-32B模型并非从零开始训练,而是基于阿里巴巴的Qwen2.5-32b-Instruct模型进行监督微调。所谓的“50美元”成本,指的是在16块Nvidia H100 GPU上训练26分钟的费用,并未包含其他数据、设备以及消融实验等成本。因此,“50美元复制”的说法存在夸大成分,更准确的描述应该是基于现有开源模型进行低成本的优化和改进。
2. S1-32B模型的创新之处
S1-32B模型并非简单地微调,它引入了测试时缩放(Test-time Scaling)技术,特别是“预算”方法。通过控制推理时间和算力分配,该模型能够在多个推理任务上取得优异的成绩,甚至在某些方面超过了OpenAI的o1-preview模型。然而,它并没有超越正式版o1和满血版DeepSeek-R1。
3. S1-32B模型成功的关键因素
S1-32B模型的成功离不开精心打造的s1K数据集,以及Qwen2.5模型的优秀基础。s1K数据集包含1000个高质量、多样化且富有挑战性的问题,极大提高了模型的泛化能力。而Qwen2.5模型的开源特性,允许研究者在其基础上进行修改和优化,降低了研发门槛。
4. 低成本AI模型训练的探索并非个例
除了S1-32B模型,伯克利大学潘家怡团队也成功以低于30美元的成本复现了DeepSeek R1-Zero的关键技术,开发出名为TinyZero的模型。这再次证明了基于开源基础模型进行低成本创新的可行性。
5. 开源模型的巨大作用
阿里巴巴的Qwen系列开源模型在这次中扮演了至关重要的角色。其开源代码和顶尖性能,为全球研究者提供了宝贵的资源,促进了低成本AI模型训练的蓬勃发展。Hugging Face的开源大模型榜单也显示,Qwen模型及其衍生模型在全球范围内占据主导地位。
6. 总结
虽然“50美元复制DeepSeek R1”的说法存在偏差,但低成本训练高性能AI模型的探索方向具有重大意义。基于开源基础模型的创新,降低了AI研究的门槛,为未来AI发展提供了更具包容性和可能性的路径。这不仅推动了AI技术的进步,也让更多研究者有机会参与到AI领域的研究中来。
联系作者
文章来源:爱范儿
作者微信:
作者简介:关注明日产品的数字潮牌