“李飞飞团队 50 美元炼出 DeepSeek R1”被质疑,上海交大本科生新“低成本推理”或成新宠!

近日,“李飞飞等斯坦福大学和华盛顿大学的研究人员以不到 50 美元的云计算费用,成功训练出了一个名为 s1 的人工智能推理模型”的消息引起了很多人关注。

“李飞飞团队 50 美元炼出 DeepSeek R1”被质疑,上海交大本科生新“低成本推理”或成新宠!

原标题:“李飞飞团队 50 美元炼出 DeepSeek R1”被质疑,上海交大本科生新“低成本推理”或成新宠!
文章来源:AI前线
内容字数:8362字

斯坦福团队低成本AI模型S1:突破与误解

近日,斯坦福大学和华盛顿大学的研究人员发表论文,介绍了一个名为S1的AI推理模型,其训练成本不到50美元,引发广泛关注。该模型在部分数学和编码能力测试中表现与OpenAI O1和DeepSeek R1等顶尖模型不相上下,但这其中存在诸多误解。

1. 李飞飞团队的贡献

虽然论文署名包含李飞飞,但她并非主要贡献者。主要工作由四位共同一作完成,李飞飞更多的是指导和资源支持。论文中提到的GPU和经济赞助来自斯坦福大学。

2. 50美元的

50美元的成本仅指S1模型最终微调阶段的GPU算力费用,不包含人力、数据收集和前期实验等成本。S1并非从零开始训练,而是基于预训练模型Qwen2.5-32B-Instruct进行微调。因此,单纯以50美元来衡量其整体成本是不准确的。

3. S1的真实性能

S1在特定测试集(如O1-preview)上表现优异,但并未超越O1正式版和DeepSeek R1。其成功依赖于精心挑选的1000个高质量问题数据集S1K,以及“预算法”这一测试时扩展方法。

4. 数据集的来源

S1K数据集并非单纯“蒸馏”Gemini,而是利用Gemini生成1000个问题的推理轨迹和答案,然后用来微调Qwen模型。这与传统的蒸馏方法有所不同,其对“蒸馏”概念的理解也存在一定的扩大化。

5. S1成功的关键因素

S1的成功主要归功于两个方面:一是精心挑选的高质量数据集S1K;二是“预算法”,该方法通过控制模型的计算量,延长模型的思考时间,从而提升模型的推理能力。

6. 模型的可用性

S1模型的论文、数据和代码均已开源,但目前没有线上服务供直接体验。用户可以自行下载代码运行。

7. 与其他研究的比较

另一篇论文《LIMO: Less is More for Reasoning》也探索了低成本高性能模型的可能性,该论文仅使用817个精选样本就取得了显著成果,挑战了大模型对海量数据的依赖。

8. 媒体报道的偏差

一些媒体报道夸大了S1模型的性能和低成本优势,例如将S1与O1和R1直接等同,并忽略了其训练成本的实际构成。这造成了公众对S1模型的误解。

9. 总结

S1模型的成功证明了在特定场景下,通过精心设计的数据集和测试时扩展方法,可以以相对较低的成本训练出具有竞争力的AI推理模型。然而,其性能并非全面超越现有顶尖模型,媒体报道中存在夸大宣传的成分。该研究具有重要意义,但其影响力不应被过度解读。


联系作者

文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...