CHINESE  INSTITUTE  OF  COMMAND  AND  CONTROL

【CICC原创】面向博弈对抗的多智能体强化学习建模与迁移技术

发表时间:2024-09-25 14:30

(《指挥与控制学报》刊文精选)

引用格式   李渊,刘运韬,徐新海,等. 面向博弈对抗的多智能体强化学习建模与迁移技术 [J]. 指挥与控制学报,2024102):226-231

LI Y, LIU Y T, XU X H, et al. A multi-agent reinforcement learning modeling and transfer technique for confrontation game[J]. Journal of Command and Control, 2024, 102: 226-231

摘要

多智能体博弈对抗问题涉及智能体之间的协作配合,传统基于博弈论等方法的解决方案并不适用于复杂场景的博弈对抗问题。基于强化学习的多智能体协同训练机制是近年来的研究热点。针对中国电子科技集团发布的多智能体博弈对抗问题,设计基于值分解的多智能体深度强化学习方法,为每个智能体独立构建网络模型,通过引入混合网络连接各个智能体,训练时以混合网络指导各智能体网络更新,执行时各智能体网络独立运行,实现集中式学习、分散式执行的训练模式。针对同构异构场景,设计一种高效的迁移训练技术,提升多智能体强化学习方法在不同场景下的快速训练效率。对同构和异构博弈对抗问题分别进行测试,实验结果表明基于值分解的多智能体强化学习方法和迁移技术,能够有效提升智能体的协作行为以及训练效率。


博弈对抗问题是最具挑战性的多智能体学习问题之一[1]。传统基于微分博弈、 博弈论等方法的解决方案并不适用于复杂场景中的博弈对抗问题。近年来强化学习方法在博弈对抗领域取得了突出的进展, 以deep Q-network(DQN)为代表的单智能体强化学习方法在围棋对抗中击败了人类顶级选手[2]。然而现实世界往往是非常复杂的, 涉及大量智能体之间的协作配合。多个相对独立的智能体共同组成的环境为多智能体系统。多智能体系统不仅仅是多个智能体能力的简单线性相加, 而是通过相互作用实现整体能力的提升[3]。

单智能体强化学习方法不能直接应用于多智能体学习问题中, 原因在于所有智能体同时独立开展学习, 造成一个非稳定的学习环境从而导致收敛速度慢或者不收敛[4]。一类常用的多智能体强化学习方法是基于中心化思想, 采用集中式学习方式, 求解多智能体联合观测状态下的最优联合动作。然而, 该方法的问题在于解空间维度会随着智能体数量的增加而呈指数增加, 使其在有限的时间内难以学习到有效策略[5]。另一类方法是去中心化的方法, 采用集中式训练、 分布式执行的学习范式, 即训练时设计联合训练机制进行综合训练, 执行时各个智能体独立分布式决策。文献[6]提出了一个多智能体演员评论家算法, 该算法中的每一个智能体学习一个集中式的价值网络和一个分布式的策略网络。但是, 当算法输入为联合观测状态信息时, 价值网络很难学习到全局Q值Qtot。之后, 基于值分解的方法开始被人们关注, 其中心思想是将Qtot解构为所有单一智能体Q值的组合。

一个代表性的值分解多智能体强化学习方法是value-decomposition network(VDN)[7], 其为每个智能体设计一个神经网络模型, 在训练时将所有神经网络输出的Q值进行求和, 进而计算损失值以更新各个智能体的神经网络参数。在执行时, 各个智能体利用各自神经网络模型, 根据各自的观测状态计算下一步动作。该方法将全局Q值Qtot表示为单智能体Q值Qi的和, 这种线性关系并不能很好地表达智能体之间的协同关系。文献[8]提出了QMIX算法, 用一个混合神经网络来表达Qtot与Qi之间的关系, 增强了多智能体协同关系的表达。关于Qtot与Qi之间的非线性关系表示在Q-learning with transformation(QTRAN), duplex dueling Q-learning(QPLEX), Weight Qmix等算法中进行了广泛的研究[9-11]。

面向实际仿真环境的多智能体博弈对抗问题引起国内外研究机构的广泛关注[12-13]。一个代表性的案例是中国电子科技集团发布的红蓝智能体对抗平台multi-agent combat arena(MACA)[14]。该平台包含多个飞行智能体, 每个智能体具有攻击、 探测、 干扰、 移动4个动作。一方多个飞行智能体通过协同配合与另一方飞行智能体进行对抗。由于雷达探测范围有限, 该问题是一个典型的部分可观测条件下的多智能体博弈对抗问题。本文对MACA对抗博弈问题进行描述并给出了总体技术架构, 针对同构场景设计了集中式训练分散式执行的多智能体网络结构并给出了相应的学习算法, 针对异构场景, 研究迁移学习技术, 将同构场景训练好的模型迁移到异构场景中, 提升强化学习模型在不同场景下的训练效率。



图片
图片
图片
图片
图片



References


[1] 曾隽芳, 牟佳, 刘禹. 多智能体群智博弈策略轻量化问题 [J]. 指挥与控制学报, 2020, 6(4): 381-387.

ZENG J F, MOU J, LIU Y. Lightweight issues of swarm intelligence based multi-agent game strategy[J]. Journal of Command and Control, 2020, 6(4): 381-387. (in Chinese)

[2] 刘全, 翟建伟, 章宗长,等. 深度强化学习综述 [J]. 计算机学报, 2018, 42(1): 1-27.

LIU Q, ZHAI J W, ZHANG Z C, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 42(1): 1-27. (in Chinese)

[3] 杜威, 丁世飞. 多智能体强化学习综述 [J]. 计算机科学, 2019, 46(8): 1-8.

DU W, DING S F. A survey on multi-agent reinforcement learning[J]. Journal of Computer Science, 2019, 46(8): 1-8. (in Chinese)

[4] LAURENT G, MATIGNON L, FORT-PIAT N. The world of independent learners is not Markovian[J]. International Journal of Knowledge-based and Intelligent Engineering Systems, 2011, 15(1): 55-64.

[5] CARLOS G, DAPHNE K, RONALD P. Multi-agent planning with factored MDPs[C]// Advances in Neural Information Processing Systems, 2001: 1523-1530.

[6] JAKOB F, GREGORY F, TRIANTAFYLLOS A, et al. Counterfactual multi-agent policy gradients[C]// Proceedings of the AAAI Conference on Artificial Intelligence, 2018.

[7] PETER S, GUY L, AUDRUNAS G, et al. Value-decomposition networks for cooperative multi-agent learning based on team reward[C]// In Proceedings of the International Conference on Autonomous Agents and Multi-agent Systems, 2018: 2085-2087.

[8] TABISH R, MIKAYEL S, CHRISTIAN S, et al. Qmix: monotonic value function factorisation for deep multi-agent reinforcement learning[C]// International Conference on Machine Learning, 2018: 4295-4304.

[9] KYUNGHWAN S, DAEWOO K, WAN J K, et al. Qtran: learning to factorize with transformation for cooperative multi-agent reinforcement learning[C]// International Conference on Machine Learning, 2019: 5887-5896.

[10]   JIANHAO W, ZHIZHOU R, TERRY L, et al. QPLEX: duplex dueling multi-agent Q-learning[C]// International Conference on Learning Representation, 2021.

[11]   TABISH R, GREGORY F, BEI P, et al. Weighted qmix: expanding monotonic value function factorization for deep multi-agent reinforcement learning[C]// International Conference on Neural Information Processing Systems, 2020..

[12]   胡晓峰, 齐大伟. 智能决策问题探讨——从游戏博弈到作战指挥距离还有多远 [J]. 指挥与控制学报, 2020, 6(4): 356-363.

HU X F, QI D W. On problems of intelligent decision-making-how far is it from game-playing to operational command[J]. Journal of Command and Control, 2020, 6(4): 356-363. (in Chinese)

[13]   刘静, 张昭, 张阳,等. 支持强化学习多智能体的网电博弈仿真平台 [J]. 指挥与控制学报, 2019, 5(1): 55-62.

LIU J, ZHANG Z, ZHANG Y, et al. A network-electric game simulation platform supporting reinforced learning multi-agents[J]. Journal of Command and Control, 2019, 5(1): 55-62. (in Chinese)

[14]   中国电子科技集团. Multi-agent combat arena(MACA)[EB/OL]. (2021-03-17) [2021-03-17]. https://github.com/cetc-tfai/maca.

[15]   SINNO J P, QIANG Y. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345-1359.

[16]   CZARNECKI W, JAYAKUMAR S, JADERBERG M, et al. Mix & match agent curricula for reinforcement learning[C]// International Conference on Machine Learning. PMLR, 2018: 1087-1095.

[17]   GANGWANI T, PENG J. Policy optimization by genetic distillation[C]// International Conference on Learning Representations, 2018.

[18]   JASON Y, JEFF C, YOSHUA B, et al. How transferable are features in deep neural networks[C]// Advances in Neural Information Processing Systems, 2014: 3320-3328.