Bengio参与,扩散模型+蒙特卡洛树搜索实现System 2规划

AIGC动态1个月前发布 机器之心
208 0 0

深度思考新方向?

Bengio参与,扩散模型+蒙特卡洛树搜索实现System 2规划

原标题:Bengio参与,扩散模型+蒙特卡洛树搜索实现System 2规划
文章来源:机器之心
内容字数:4244字

蒙特卡洛树扩散 (MCTD): 结合扩散模型与MCTS的规划新框架

本文总结了机器之心报道中关于蒙特卡洛树扩散 (MCTD) 的研究成果。该研究由Yoshua Bengio和Sungjin Ahn领导的团队完成,旨在结合扩散模型的生成能力和蒙特卡洛树搜索 (MCTS) 的自适应搜索能力,以提升基于扩散的规划的效率和可扩展性。

1. 扩散模型与MCTS的优势与不足

扩散模型能够生成复杂的轨迹,无需依赖前向动力学模型,尤其适用于长周期或稀疏奖励的规划任务。然而,提升其规划精度的额外计算成本利用效率低。MCTS具有强大的可扩展性,能够随着计算量的增加有效提升规划准确度,但依赖前向模型,存在全局一致性问题,且在长远规划和大动作空间中计算需求巨大。

2. MCTD框架:创新之处

MCTD框架巧妙地结合了扩散模型和MCTS,主要有三项创新:

  1. 将去噪过程重构成基于树的rollout过程: 这使得MCTD能够在保持轨迹连贯性的同时实现半自回归的因果规划。

  2. 引入引导层级作为元动作: 实现了“探索”与“利用”的动态平衡,确保在扩散框架内实现自适应和可扩展的轨迹优化。

  3. 采用快速跳跃去噪机制: 无需成本高昂的前向模型rollout即可有效估计轨迹质量。

MCTD将MCTS的四个步骤(选择、扩展、模拟和反向传播)整合到扩散过程中,有效地将结构化搜索与生成式建模结合。

3. MCTD的两种视角及算法过程

MCTD可以从MCTS视角和扩散视角两种角度理解。MCTS视角强调MCTD在部分去噪树上的迭代搜索过程;扩散视角则关注在去噪深度和规划范围上的部分去噪过程。该框架统一了这两种视角。

文章中给出了MCTD的算法流程图,详细描述了其运作机制。

4. 实验结果与未来展望

实验结果表明,MCTD在Offline Goal-conditioned RL Benchmark (OGBench)上的多种任务中,例如迷宫导航和机器人操作任务中,显著优于其他方法,展现了其卓越的可扩展性和高质量的解决方案。 文章提供了多个表格和图表,展示了MCTD在不同任务上的优越性能。

研究团队表示,未来将探索自适应计算分配、基于学习的元动作选择和奖励塑造等方向,以进一步提升MCTD的性能,为更具可扩展性和灵活性的System 2规划铺平道路。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...