上海交大、港中文、上海AI实验室等最新成果
原标题:简单示例提升DeepSeek-R1美国数学邀请赛AIME分数:以步骤为粒度对齐上下文学习与推理
文章来源:量子位
内容字数:6532字
BoostStep:提升大语言模型数学推理能力的全新策略
来自上海交通大学、香港中文大学和上海人工智能实验室的研究人员提出了一种名为BoostStep的新策略,显著提升了大语言模型 (LLM) 解决复杂数学问题的能力。该策略通过对齐上下文学习和推理的粒度,解决了传统少样本学习在多步推理中单步推理能力不足的问题,并在多个数学测试集上取得了显著成果。
1. 问题背景:单步推理是瓶颈
大语言模型解决复杂数学问题通常采用多步推理策略,即将复杂问题分解为多个步骤逐步推理。研究人员发现,单步推理是当前模型推理能力的瓶颈。即使是先进的模型如GPT-4o,也有高达99.2%的错误源于单步推理,而非问题分解。
2. 传统上下文学习的局限性
上下文学习通过引入相似例子来指导模型推理,但传统的上下文学习以题目为粒度进行检索和指导,这导致以下缺陷:
- 缺乏解决关键推理步骤所需的示例。
- 无关步骤甚至会对推理产生负面影响。
- 缺乏推理过程中的实时指导。
3. BoostStep策略:步骤粒度的上下文学习
BoostStep策略的核心在于将上下文学习的粒度从题目细化到每个推理步骤。它包含以下关键步骤:
- 步骤粒度题库构建: 利用GPT-4o将解答过程分解成多个原子步骤,保证每个步骤包含一个完整的思维过程,避免简单的语义分割造成的原子性破坏。
- “首次尝试”检索策略: 模型先进行一次零样本尝试,根据尝试结果从题库中检索最相似的步骤,再进行正式推理,确保检索到的例子与当前步骤高度相关。
4. 实验结果:显著提升性能、潜力、泛化性和鲁棒性
BoostStep在多个数学测试集上表现出色:
- 性能提升: 在不同数学评测集上,为GPT-4o和Qwen2.5-Math-72B带来了4.6%和2.2%的提升,远超传统少样本学习。
- 潜力提升: 即使使用MATH数据集中的简单示例,也能帮助Deepseek-R1在AIME竞赛中获得2.2%的提升。
- 泛化性提升: 即使例题与待解决问题不相似,BoostStep仍然能取得持续提升,优于传统少样本学习。
- 鲁棒性提升: 对题库相似度的敏感性较低,在检索不匹配的情况下性能下降幅度较小。
5. 扩展应用:与树搜索策略结合
BoostStep可以与树搜索策略结合,进一步提升数学推理能力。通过在树搜索的生成和筛选阶段引入步骤样例,可以获得高达8.5%的额外提升。
6. 结论
BoostStep算法通过步骤粒度的上下文学习,有效提升了大语言模型的数学推理能力,在性能、潜力、泛化性和鲁棒性方面均大幅优于传统少样本学习,并可与树搜索算法结合,具有广泛的应用前景。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...