扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶Atari 100K

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶Atari 100K
关键字：模型,智能,世界,环境,得分
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】DIAMOND是一种新型的强化学习智能体，在一个由扩散模型构建的虚拟世界中进行训练，能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中，DIAMOND的平均得分超越了人类玩家，证明了其在模拟复杂环境中处理细节和进行决策的能力。环境生成模型（generative models of environments），也可以叫世界模型（world model），在「通用智能体规划」和「推理环境」中的关键组成部分，相比传统强化学习采样效率更高。
但世界模型主要操作一系列离散潜在变量（discrete latent variables）以模拟环境动态，但这种压缩紧凑的离散表征有可能会忽略那些在强化学习中很重要的视觉细节。
日内瓦大学、爱丁堡大学的研究人员提出了一个在扩散世界模型中训练的强化学习智能体DIAMOND（DIffusion As a Model Of eNvironment Dreams），文中分析了使扩散模型适应于世界建模（world modeling）所需的设计要素，并展示了如何通过改善视觉细节来提高智能体的性能。论文链接：htt

原文链接：扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶Atari 100K