16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling

16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling

原标题:16张H100训26分钟,超越o1-preview!李飞飞等用1K样本,揭秘测试时Scaling
文章来源:新智元
内容字数:6813字

大模型推理新突破:1000个样本即可超越闭源模型

近年来,大模型推理能力的提升备受关注,然而普遍认为这需要依赖海量数据和强大的算力。斯坦福大学、华盛顿大学等机构的研究人员近期发表的论文“s1: Simple test-time scaling”则提出了一种颠覆性方法,仅需1000个样本就能训练出具有强大推理能力的模型,其性能甚至超越了OpenAI的闭源模型o1-preview。

  1. 高效的样本利用:s1K数据集与监督微调

    研究人员创建了一个名为s1K的数据集,包含1000个精心筛选的问题,涵盖了多个领域和推理任务,每个问题都配有推理轨迹和答案。他们利用这个数据集,仅用16张H100 GPU训练了26分钟,就完成了对预训练模型的监督微调(SFT),构建了s1-32B模型。这极大地提高了样本效率。

  2. 突破性技术:预算(Budget Forcing)

    论文的核心在于一种名为“预算”的技术。该技术通过控制模型在测试时的计算量来提升推理性能。具体来说,它通过限制模型生成的推理token数量来控制推理的深度。如果生成的token超过上限,则结束推理;如果希望模型进行更深入的推理,则可以添加“Wait” token,鼓励模型继续思考。这种方法可以引导模型进行自我检查,并修正推理过程中的错误。

  3. 测试时扩展:性能随计算量提升

    s1-32B模型展现了显著的测试时扩展能力,即其性能会随着测试计算量的增加而提升。通过增加“Wait” token的数量,模型在多个基准测试上的表现都有所提高,这与OpenAI闭源模型的测试时扩展行为相符,但该研究仅使用1000个样本就实现了这一突破。

  4. 超越闭源模型:样本效率的极致

    s1-32B模型在多个基准测试中超越了OpenAI的o1-preview等闭源模型,展现了其强大的推理能力。值得注意的是,DeepSeek r1-32B模型虽然性能更强,但其使用了800倍的训练样本。这充分证明了s1-32B模型在样本效率方面的优势。

  5. 消融实验:数据选择标准的重要性

    研究人员进行了大量的消融实验,验证了s1K数据集在质量、难度和多样性三个方面的选择标准的重要性。结果表明,这三个因素的结合是实现样本高效推理训练的关键。

  6. 未来方向:改进预算和探索并行扩展

    论文最后展望了未来的研究方向,包括改进预算技术,例如轮换使用不同的字符串或结合频率惩罚;将预算应用于强化学习训练的模型;探索新的测试时扩展方法,例如结合并行扩展方法,以进一步提升模型性能。

总而言之,该研究提出了一种简单有效的方法,利用少量样本和预算技术,实现了强大的模型推理能力,为大模型训练和应用提供了新的思路和方向。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...