原标题:超越人类!DeepMind强化学习新突破:AI在「我的世界」中封神!
文章来源:新智元
内容字数:10940字
DeepMind AI超越人类专家:在《我的世界》类游戏中取得突破
DeepMind团队近期取得重大突破,其改进的强化学习技术使AI在类似《我的世界》的2D游戏Craftax-classic中超越了人类专家水平。这项研究的核心在于改进基于Transformer世界模型(TWM)的强化学习方法,并显著提升了AI的学习效率,仅需少量数据即可达到超越SOTA的性能。
1. 挑战与方法:Crafter环境与基于模型的强化学习
为了训练更全面的AI,DeepMind选择Crafter环境作为训练平台。Crafter是一个2D版的《我的世界》,其随机生成的关卡、局部视野以及基于成就的奖励机制,对AI的学习能力提出了更高的要求。研究团队采用基于模型的强化学习(MBRL)方法,让AI先构建一个“世界模型”(WM),在模拟世界中进行规划,从而减少对环境交互数据的依赖。与传统的无模型强化学习(MFRL)相比,MBRL显著降低了数据需求。
2. 关键改进:三项核心技术提升性能
研究团队主要从三个方面对TWM进行改进:首先,采用Dyna方法,混合使用真实环境数据和TWM生成的虚拟数据训练智能体,这是一种生成式数据增强的方法;其次,提出了一种新的图像标记化方法——最近邻标记器(NNT),它比传统的VQ-VAE方法更有效率,并提高了TWM的稳定性;最后,采用块状教师(BTF)方法改进TWM的训练方式,提高了训练速度和模型准确性。这三项改进共同促使AI在Craftax-classic中取得了67.42%的奖励和27.91%的得分,显著超越了之前的SOTA,甚至超过了人类专家的平均水平。
3. 实验结果与分析:MBRL阶梯与消融实验
研究团队通过“MBRL阶梯”清晰地展示了每项改进带来的性能提升,从基准模型到最终的最佳模型,奖励逐步提升。消融实验进一步验证了每项改进措施的重要性,证明了其有效性。此外,定量和定性评估都显示,改进后的TWM能够更好地捕捉游戏动态,减少不合理的预测,提升了世界模型的质量。
4. 未来展望:技术推广与进一步研究
DeepMind团队计划将这些技术推广到更广泛的环境中,并进一步研究使用优先经验回放加速训练,以及结合大型预训练模型提升性能。他们还计划探索非重构型世界模型,以进一步提高AI的学习效率和泛化能力。
总而言之,DeepMind的这项研究为强化学习领域带来了新的突破,展示了基于模型的强化学习在复杂环境中解决问题的巨大潜力,并为通往通用人工智能(AGI)的道路提供了新的启示。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。