简单示例提升DeepSeek-R1美国数学邀请赛AIME分数:以步骤为粒度对齐上下文学习与推理

上海交大、港中文、上海AI实验室等最新成果

简单示例提升DeepSeek-R1美国数学邀请赛AIME分数:以步骤为粒度对齐上下文学习与推理

原标题:简单示例提升DeepSeek-R1美国数学邀请赛AIME分数:以步骤为粒度对齐上下文学习推理
文章来源:量子位
内容字数:6532字

BoostStep:提升大语言模型数学推理能力的全新策略

来自上海交通大学、香港中文大学和上海人工智能实验室的研究人员提出了一种名为BoostStep的新策略,显著提升了大语言模型 (LLM) 解决复杂数学问题的能力。该策略通过对齐上下文学习和推理的粒度,解决了传统少样本学习在多步推理中单步推理能力不足的问题,并在多个数学测试集上取得了显著成果。

1. 问题背景:单步推理是瓶颈

大语言模型解决复杂数学问题通常采用多步推理策略,即将复杂问题分解为多个步骤逐步推理。研究人员发现,单步推理是当前模型推理能力的瓶颈。即使是先进的模型如GPT-4o,也有高达99.2%的错误源于单步推理,而非问题分解。

2. 传统上下文学习的局限性

上下文学习通过引入相似例子来指导模型推理,但传统的上下文学习以题目为粒度进行检索和指导,这导致以下缺陷:

  1. 缺乏解决关键推理步骤所需的示例。
  2. 无关步骤甚至会对推理产生负面影响。
  3. 缺乏推理过程中的实时指导。

3. BoostStep策略:步骤粒度的上下文学习

BoostStep策略的核心在于将上下文学习的粒度从题目细化到每个推理步骤。它包含以下关键步骤:

  1. 步骤粒度题库构建: 利用GPT-4o将解答过程分解成多个原子步骤,保证每个步骤包含一个完整的思维过程,避免简单的语义分割造成的原子性破坏。
  2. “首次尝试”检索策略: 模型先进行一次零样本尝试,根据尝试结果从题库中检索最相似的步骤,再进行正式推理,确保检索到的例子与当前步骤高度相关。

4. 实验结果:显著提升性能、潜力、泛化性和鲁棒性

BoostStep在多个数学测试集上表现出色:

  1. 性能提升: 在不同数学评测集上,为GPT-4o和Qwen2.5-Math-72B带来了4.6%和2.2%的提升,远超传统少样本学习。
  2. 潜力提升: 即使使用MATH数据集中的简单示例,也能帮助Deepseek-R1在AIME竞赛中获得2.2%的提升。
  3. 泛化性提升: 即使例题与待解决问题不相似,BoostStep仍然能取得持续提升,优于传统少样本学习。
  4. 鲁棒性提升: 对题库相似度的敏感性较低,在检索不匹配的情况下性能下降幅度较小。

5. 扩展应用:与树搜索策略结合

BoostStep可以与树搜索策略结合,进一步提升数学推理能力。通过在树搜索的生成和筛选阶段引入步骤样例,可以获得高达8.5%的额外提升。

6. 结论

BoostStep算法通过步骤粒度的上下文学习,有效提升了大语言模型的数学推理能力,在性能、潜力、泛化性和鲁棒性方面均大幅优于传统少样本学习,并可与树搜索算法结合,具有广泛的应用前景。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...