多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

AI智能体:强者从不抱怨环境。

多智能体强化学习算法评估Hard模式来了!浙大、南栖仙策联手推出

原标题:多智能体强化学习算法评估Hard模式来了!浙大南栖仙策联手推出
文章来源:机器之心
内容字数:6499字

SMAC-HARD:一个更具挑战性的星际争霸II多智能体强化学习环境

本文介绍了由浙江大学和南栖仙策联合推出的SMAC-HARD环境,这是一个基于星际争霸II的改进型多智能体强化学习(MARL)模拟环境。它旨在解决现有SMAC环境中对手策略单一、缺乏多样性等问题,从而为MARL算法评估提供更严峻的挑战。

1. SMAC环境的局限性

传统的SMAC(星际争霸多智能体挑战)环境,包括SMACv1和SMACv2,都使用默认的、单一的对手策略脚本。这导致MARL算法容易过拟合到特定对手策略,或利用对手策略漏洞,从而无法真实反映算法的有效性。

2. SMAC-HARD的改进

SMAC-HARD环境的主要改进在于:

  1. 可编辑的对手策略:允许用户自定义对手策略脚本,提高环境多样性。
  2. 随机化对手策略:支持预定义概率混合多个对手策略,进一步增强环境的复杂性。
  3. MARL自博弈接口:提供对称接口,方便进行MARL自博弈研究。
  4. 黑盒测试:允许对在默认对手策略下训练的模型进行黑盒测试,评估其策略覆盖率和迁移能力。
  5. 修复SMAC奖励结算错误:修正了SMAC环境中存在的奖励结算错误,使实验结果更准确。

3. SMAC-HARD的实现

SMAC-HARD基于Python的pysc2代码包和SMAC框架实现。它修改了SMAC的地图和starcraft.py文件,以支持多玩家模式、禁用默认攻击策略,并对玩家行动进行并行化处理,以减少行动顺序的影响。环境还支持使用大模型自动生成对手策略脚本。

4. 实验结果

实验结果表明,在SMAC-HARD环境中,即使是那些在传统SMAC环境中表现优异的MARL算法,也难以保持高胜率,这突显了SMAC-HARD环境的挑战性。黑盒测试也表明,在单一对手策略下训练的模型,其策略迁移能力有限。 一些经典算法在SMAC-HARD环境下,即使经过1000万步训练,胜率也远低于在SMAC环境中的表现。

5. 结论

SMAC-HARD环境为MARL算法评估提供了新的挑战,促进了自博弈方法的发展。它支持对手策略编辑、随机化和自博弈,并提供了黑盒测试模式,有助于评估算法的策略覆盖率和迁移能力。 该环境的推出,为MARL社区的研究提供了更具挑战性和实用性的平台。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...