简单示例提升DeepSeek-R1美国数学邀请赛AIME分数：以步骤为粒度对齐上下文学习与推理

上海交大、港中文、上海AI实验室等最新成果

原标题：简单示例提升DeepSeek-R1 美国数学邀请赛AIME分数：以步骤为粒度对齐上下文学习与推理
文章来源：量子位
内容字数：6532字

来自上海交通大学、香港中文大学和上海人工智能实验室的研究人员提出了一种名为BoostStep的新策略，显著提升了大语言模型 (LLM) 解决复杂数学问题的能力。该策略通过对齐上下文学习和推理的粒度，解决了传统少样本学习在多步推理中单步推理能力不足的问题，并在多个数学测试集上取得了显著成果。

大语言模型解决复杂数学问题通常采用多步推理策略，即将复杂问题分解为多个步骤逐步推理。研究人员发现，单步推理是当前模型推理能力的瓶颈。即使是先进的模型如GPT-4o，也有高达99.2%的错误源于单步推理，而非问题分解。

上下文学习通过引入相似例子来指导模型推理，但传统的上下文学习以题目为粒度进行检索和指导，这导致以下缺陷：

BoostStep策略的核心在于将上下文学习的粒度从题目细化到每个推理步骤。它包含以下关键步骤：

BoostStep在多个数学测试集上表现出色：

BoostStep可以与树搜索策略结合，进一步提升数学推理能力。通过在树搜索的生成和筛选阶段引入步骤样例，可以获得高达8.5%的额外提升。

BoostStep算法通过步骤粒度的上下文学习，有效提升了大语言模型的数学推理能力，在性能、潜力、泛化性和鲁棒性方面均大幅优于传统少样本学习，并可与树搜索算法结合，具有广泛的应用前景。

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

文章版权归作者所有，未经允许请勿转载。

暂无评论...