将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

新学习推理方法:集体蒙特卡罗树搜索(Collective Monte Carlo Tree Search, CoMCTS

将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思

原标题:将集体学习引入树搜索,新方法CoMCTS实现o1-like的推理与反思
文章来源:机器之心
内容字数:6645字

Mulberry: 赋能多模态大语言模型的逐步推理能力

本文介绍了名为Mulberry的新型多模态大语言模型(MLLM),它通过一种名为集体蒙特卡罗树搜索(CoMCTS)的新方法,显著提升了MLLM在复杂推理任务中的性能。现有MLLM在简单任务上表现出色,但在复杂推理方面仍存在不足,本文旨在解决这一问题。

1. 挑战与CoMCTS的提出

传统树搜索方法如MCTS应用于MLLM推理路径搜索效果不佳,主要原因在于搜索有效性和效率两方面:传统的MCTS方法依赖于自我引导,而当前MLLM的训练缺乏明确的中间推理步骤,导致搜索陷入低质量节点;此外,传统MCTS效率低下,每次迭代仅扩展一个节点,计算成本高昂。为解决这些问题,本文提出了CoMCTS。CoMCTS的核心思想是将集体学习引入树搜索,通过多个MLLM的协同工作,高效地搜索有效的推理路径。

2. CoMCTS算法详解

CoMCTS算法包含四个关键操作:扩展(Expansion)、模拟与错误定位(Simulation and Error Position)、反向传播(Backpropagation)和选择(Selection)。

  1. 扩展:利用多个MLLM协同扩展多个候选推理路径,避免单一模型陷入低质量节点。
  2. 模拟与错误定位:多个模型共同模拟候选节点的值,过滤掉低分节点,提高效率。
  3. 反向传播:自底向上更新推理树中节点的统计信息。
  4. 选择:根据上置信界限(UCB)值选择下一个搜索节点。

CoMCTS还通过整合正负推理节点构建反思性推理路径,进一步提升模型的推理能力。

3. Mulberry模型及实验结果

利用CoMCTS构建了Mulberry-260K数据集,并训练了一系列Mulberry模型。实验结果表明,Mulberry模型在多个基准测试中显著优于现有开源MLLM,并在与闭源模型的比较中展现出竞争力。消融实验也验证了CoMCTS各个组件的有效性,特别是集体学习机制和反思学习机制的贡献。

4. 主要贡献与结论

本文的主要贡献在于提出了CoMCTS算法,该算法通过集体学习和反思学习机制,有效提升了MLLM的推理能力。Mulberry模型的成功证明了CoMCTS方法的有效性和实用性,为未来MLLM的研究提供了新的方向。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...