AI智能体:强者从不抱怨环境。
SMAC-HARD:一个更具挑战性的星际争霸II多智能体强化学习环境
本文介绍了由浙江大学和南栖仙策联合推出的SMAC-HARD环境,这是一个基于星际争霸II的改进型多智能体强化学习(MARL)模拟环境。它旨在解决现有SMAC环境中对手策略单一、缺乏多样性等问题,从而为MARL算法评估提供更严峻的挑战。
1. SMAC环境的局限性
传统的SMAC(星际争霸多智能体挑战)环境,包括SMACv1和SMACv2,都使用默认的、单一的对手策略脚本。这导致MARL算法容易过拟合到特定对手策略,或利用对手策略漏洞,从而无法真实反映算法的有效性。
2. SMAC-HARD的改进
SMAC-HARD环境的主要改进在于:
- 可编辑的对手策略:允许用户自定义对手策略脚本,提高环境多样性。
- 随机化对手策略:支持预定义概率混合多个对手策略,进一步增强环境的复杂性。
- MARL自博弈接口:提供对称接口,方便进行MARL自博弈研究。
- 黑盒测试:允许对在默认对手策略下训练的模型进行黑盒测试,评估其策略覆盖率和迁移能力。
- 修复SMAC奖励结算错误:修正了SMAC环境中存在的奖励结算错误,使实验结果更准确。
3. SMAC-HARD的实现
SMAC-HARD基于Python的pysc2代码包和SMAC框架实现。它修改了SMAC的地图和starcraft.py文件,以支持多玩家模式、禁用默认攻击策略,并对玩家行动进行并行化处理,以减少行动顺序的影响。环境还支持使用大模型自动生成对手策略脚本。
4. 实验结果
实验结果表明,在SMAC-HARD环境中,即使是那些在传统SMAC环境中表现优异的MARL算法,也难以保持高胜率,这突显了SMAC-HARD环境的挑战性。黑盒测试也表明,在单一对手策略下训练的模型,其策略迁移能力有限。 一些经典算法在SMAC-HARD环境下,即使经过1000万步训练,胜率也远低于在SMAC环境中的表现。
5. 结论
SMAC-HARD环境为MARL算法评估提供了新的挑战,促进了自博弈方法的发展。它支持对手策略编辑、随机化和自博弈,并提供了黑盒测试模式,有助于评估算法的策略覆盖率和迁移能力。 该环境的推出,为MARL社区的研究提供了更具挑战性和实用性的平台。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...