比 DeepSeek R1 更简单,更厉害?
原标题:训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
文章来源:机器之心
内容字数:4896字
斯坦福大学提出S1:高效提升AI推理效率的新方法
本文总结了斯坦福大学等研究机构提出的S1模型,该模型以极低的算力成本大幅提升了AI的推理能力,为通用人工智能(AGI)的研究提供了新的方向。
DeepSeek R1的启发与S1的创新
今年1月,DeepSeek R1模型以其创新的低算力需求方法震惊了科技界。然而,DeepSeek R1需要大量数据,且缺少OpenAI的O1模型的测试时间扩展图。斯坦福大学的研究人员在此基础上提出了S1模型,它仅使用1000个样本和简单的测试时间干预,就重现并超越了O1的性能。
S1的核心方法:测试时间扩展与预算
S1的核心在于一种名为“测试时间扩展”的新方法。该方法通过在测试阶段增加额外的计算来提高模型性能。S1采用了一种名为“预算”的简单干预技术。该技术通过控制模型的“思考”token数量,模型在思考过程中进行更仔细的检查,从而提高答案的准确性。具体来说,它通过添加或抑制特定的token来控制模型思考时间的长短。
S1的实验结果与性能对比
研究人员在竞赛数学问题基准上对S1-32B进行了评估。结果显示,S1-32B在AIME24上的表现比O1-preview高出27%,并且与Gemini 2.0 Thinking的性能相近。此外,S1-32B展现出极高的样本效率,仅用1000个样本就取得了优异的成绩,远超其他需要大量数据的模型。
S1的优势与意义
S1模型的优势在于其极高的样本效率和简单的实现方法。它证明了在通往AGI的道路上,不必一味追求算力规模的扩大,更高效的算法和方法同样能够带来突破性的进展。S1模型的开源也为其他研究者提供了宝贵的资源和参考。
未来展望
S1模型的出现为AI推理效率的提升提供了新的思路。未来,研究人员可以进一步探索和改进测试时间扩展方法,并将其应用于更广泛的领域,推动AGI研究的快速发展。
总而言之,S1模型以其简洁高效的方法,为AI领域带来了令人振奋的进展,也为未来的研究方向指明了新的路径。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台