LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升

AIGC动态1个月前发布 新智元
85 0 0

LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升

原标题:LLM实现自回归搜索!MIT哈佛等提出「行动思维链」COAT,推理能力大提升
文章来源:新智元
内容字数:7670字

Satori:赋予LLM自回归搜索能力的7B参数模型

本文介绍了MIT、新加坡科技设计大学、哈佛大学等机构华人研究者提出的Satori模型,该模型是一个7B参数的LLM,在数学推理和跨领域任务中表现优异。其核心创新在于引入了一种创新的自回归搜索方法,通过两阶段训练框架——小规模格式调优和大规模自我优化——来提升LLM的推理能力。

1. 核心思想:将推理视为顺序决策问题

Satori将LLM的推理过程看作一个顺序决策问题,LLM逐步构建和完善答案。通过生成推理步骤(动作)并更新上下文(状态),重复此过程直到得出最终答案。根据答案与真实答案的匹配程度给予奖励,利用强化学习(RL)训练LLM,以最大化期望奖励。

2. 行动-思维链(COAT)推理机制

为了实现自回归搜索,研究者引入了COAT机制。它包含特殊的元动作tokens,引导LLM推理过程:<|continue|>(继续推理)、<|reflect|>(反思)、<|explore|>(探索替代方案)。每个COAT推理步骤都是一个token序列,从一个元动作token开始。

3. 两阶段训练框架

(1) 小规模格式调优阶段:利用少量推理轨迹示例,微调预训练LLM,使其熟悉并掌握COAT推理格式。一个多代理数据合成框架(包含生成器、评论者和奖励模型)被用来生成高质量的示范轨迹。

(2) 大规模自我优化阶段:使用PPO算法进行RL优化,并引入重启与探索(RAE)策略和迭代自我提升策略。RAE策略允许模型从之前的中间步骤重新开始推理,并增加探索奖励鼓励深入思考。迭代自我提升则在每一轮RL训练后进行监督微调,将教师策略的知识传递给基础模型。

4. Satori的优势

Satori无需外部指导即可自我反思和探索,主要依靠自我改进(RL)实现了最先进的推理性能。它展现出强大的迁移能力,可应用于数学以外的领域,并具备自我纠错能力。实验结果表明,Satori在数学推理基准测试中取得了最佳成绩,并在逻辑推理、代码推理、常识推理等多个领域表现优异。

5. 蒸馏技术提升泛化能力

研究者还利用Satori-Qwen-7B生成合成数据,通过蒸馏技术将Satori的推理能力转移到较弱的基础模型(如Llama-3.1-8B和Granite-3.1-8B),提升了这些模型的推理能力,且成本较低。

总结:Satori模型通过巧妙地结合自回归搜索、COAT推理机制和两阶段训练框架,有效提升了LLM的推理能力,展现了其在解决复杂推理问题上的巨大潜力。其强大的迁移能力和自我纠错能力也为未来LLM的发展提供了新的方向。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...