多智能体强化学习算法评估Hard模式来了！浙大、南栖仙策联手推出

AIGC动态11个月前发布机器之心

347 0 0

AI智能体：强者从不抱怨环境。

原标题：多智能体强化学习算法评估Hard模式来了！浙大、南栖仙策联手推出
文章来源：机器之心
内容字数：6499字

SMAC-HARD：一个更具挑战性的星际争霸II多智能体强化学习环境

本文介绍了由浙江大学和南栖仙策联合推出的SMAC-HARD环境，这是一个基于星际争霸II的改进型多智能体强化学习(MARL)模拟环境。它旨在解决现有SMAC环境中对手策略单一、缺乏多样性等问题，从而为MARL算法评估提供更严峻的挑战。

1. SMAC环境的局限性

传统的SMAC(星际争霸多智能体挑战)环境，包括SMACv1和SMACv2，都使用默认的、单一的对手策略脚本。这导致MARL算法容易过拟合到特定对手策略，或利用对手策略漏洞，从而无法真实反映算法的有效性。

2. SMAC-HARD的改进

SMAC-HARD环境的主要改进在于：

可编辑的对手策略：允许用户自定义对手策略脚本，提高环境多样性。
随机化对手策略：支持预定义概率混合多个对手策略，进一步增强环境的复杂性。
MARL自博弈接口：提供对称接口，方便进行MARL自博弈研究。
黑盒测试：允许对在默认对手策略下训练的模型进行黑盒测试，评估其策略覆盖率和迁移能力。
修复SMAC奖励结算错误：修正了SMAC环境中存在的奖励结算错误，使实验结果更准确。

3. SMAC-HARD的实现

SMAC-HARD基于Python的pysc2代码包和SMAC框架实现。它修改了SMAC的地图和starcraft.py文件，以支持多玩家模式、禁用默认攻击策略，并对玩家行动进行并行化处理，以减少行动顺序的影响。环境还支持使用大模型自动生成对手策略脚本。

4. 实验结果

实验结果表明，在SMAC-HARD环境中，即使是那些在传统SMAC环境中表现优异的MARL算法，也难以保持高胜率，这突显了SMAC-HARD环境的挑战性。黑盒测试也表明，在单一对手策略下训练的模型，其策略迁移能力有限。一些经典算法在SMAC-HARD环境下，即使经过1000万步训练，胜率也远低于在SMAC环境中的表现。

5. 结论

SMAC-HARD环境为MARL算法评估提供了新的挑战，促进了自博弈方法的发展。它支持对手策略编辑、随机化和自博弈，并提供了黑盒测试模式，有助于评估算法的策略覆盖率和迁移能力。该环境的推出，为MARL社区的研究提供了更具挑战性和实用性的平台。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # Hard模式评估 # 仙策算法 # 南栖仙策 # 多智能体强化学习 # 浙大

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

多智能体强化学习算法评估Hard模式来了！浙大、南栖仙策联手推出

AI智能体：强者从不抱怨环境。

SMAC-HARD：一个更具挑战性的星际争霸II多智能体强化学习环境

1. SMAC环境的局限性

2. SMAC-HARD的改进

3. SMAC-HARD的实现

4. 实验结果

5. 结论

联系作者

参数减少99.5%，媲美全精度FLUX！字节跳动等发布首个1.58-bit FLUX量化模型

奥特曼惊呼奇点临近！95%人类饭碗将被AI抢走，2028年百万AI上岗

相关文章

暂无评论

ChatGPT

玩虚拟模特？