Aprendizaje por refuerzo multiagente

El aprendizaje por refuerzo de multiagente es un subcampo del aprendizaje por refuerzo . Se centra en estudiar el comportamiento de múltiples agentes de aprendizaje que conviven en un entorno compartido.^[1] Cada agente está motivado por sus propias recompensas y realiza acciones para promover sus propios intereses.

Dos equipos rivales de agentes se enfrentan en un experimento MARL

Definición

De manera similar al aprendizaje por refuerzo de un solo agente, el aprendizaje por refuerzo de múltiples agentes se modela como una forma de proceso de decisión de Markov (MDP) . Por ejemplo:

Un conjunto $S$ de estados ambientales.
Un set ${\mathcal {A}}_{i}$ de acciones para cada uno de los agentes $i\in I=\{1,...,N\}$ .
$P_{\overrightarrow {a}}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,{\overrightarrow {a}}_{t}={\overrightarrow {a}})$ es la probabilidad de transición (en el tiempo $t$ ) del estado $s$ a estado $s'$ bajo acción conjunta ${\overrightarrow {a}}$ .
${\overrightarrow {R}}_{\overrightarrow {a}}(s,s')$ es la recompensa conjunta inmediata después de la transición de $s$ a $s'$ con acción conjunta ${\overrightarrow {a}}$ .

En escenarios con información perfecta, como los juegos de ajedrez y Go, el MDP sería totalmente observable. En entornos con información imperfecta, especialmente en aplicaciones del mundo real como los automóviles autónomos, cada agente accedería a una observación que solo tiene parte de la información sobre el estado actual.

Cooperación versus competencia

Cuando varios agentes actúan en un entorno compartido, sus intereses pueden estar alineados o desalineados.

Escenarios de competición pura

Cuando dos agentes están jugando un juego de suma cero, están en pura competencia entre sí. Muchos juegos tradicionales como el ajedrez y el Go entran en esta categoría, al igual que las variantes para dos jugadores de juegos modernos como StarCraft . Debido a que cada agente solo puede ganar a expensas del otro agente, se eliminan muchas complejidades.

Entornos de cooperación pura

En escenarios de pura cooperación todos los agentes obtienen recompensas idénticas.

En entornos de pura cooperación, a menudo hay un número arbitrario de estrategias de coordinación y los agentes convergen en "convenciones" específicas cuando se coordinan entre sí.

Configuraciones de suma mixta

En este escenario de suma mixta, cada uno de los cuatro agentes intenta alcanzar un objetivo diferente. El éxito de cada agente depende de que los otros agentes despejen su camino, aunque no estén directamente incentivados para ayudarse entre sí.^[2]

La mayoría de los escenarios del mundo real que involucran a múltiples agentes tienen elementos tanto de cooperación como de competencia.

Dilemas sociales

Al igual que en la teoría de juegos, gran parte de la investigación en MARL gira en torno a dilemas sociales

Mientras que la investigación de la teoría de juegos podría centrarse en los equilibrios de Nash y cuál sería una política ideal para un agente, la investigación de MARL se centra en cómo los agentes aprenderían estas políticas ideales mediante un proceso de prueba y error.

Dilemas sociales secuenciales

Los dilemas sociales como el dilema del prisionero, la caza del pollo y del ciervo son "juegos de matriz". Cada agente realiza solo una acción de una elección de dos acciones posibles.

Aplicaciones

El aprendizaje por refuerzo de múltiples agentes se ha aplicado a:

Limitaciones

Existen algunas dificultades inherentes al aprendizaje por refuerzo profundo multiagente.^[16] El entorno ya no es estacionario, por lo que se viola la propiedad de Markov.

Software

Existen varias herramientas y marcos para trabajar con entornos de aprendizaje reforzado multiagente:

Otras lecturas

Yang, Yaodong; Wang, Jun (2020). «An Overview of Multi-Agent Reinforcement Learning from Game Theoretical Perspective». arXiv:2011.00583

[cs.MA].

Referencias

↑ Albrecht, Stefano; Stone, Peter (2017), «Multiagent Learning: Foundations and Recent Trends. Tutorial», IJCAI-17 conference .
↑ Bettini, Matteo; Kortvelesy, Ryan; Blumenkamp, Jan; Prorok, Amanda (2022). «VMAS: A Vectorized Multi-Agent Simulator for Collective Robot Learning». The 16th International Symposium on Distributed Autonomous Robotic Systems (Springer). arXiv:2207.03530.
↑ ^a ^b ^c ^d ^e ^f ^g ^h Li, Tianxu; Zhu, Kun; Luong, Nguyen Cong; Niyato, Dusit; Wu, Qihui; Zhang, Yang; Chen, Bing (2021). «Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey». arXiv:2110.13484 [cs.AI].
↑ Le, Ngan; Rathour, Vidhiwar Singh; Yamazaki, Kashu; Luu, Khoa; Savvides, Marios (2021). «Deep Reinforcement Learning in Computer Vision: A Comprehensive Survey». arXiv:2108.11510 [cs.CV].
↑ Moulin-Frier, Clément; Oudeyer, Pierre-Yves (2020). «Multi-Agent Reinforcement Learning as a Computational Tool for Language Evolution Research: Historical Context and Future Challenges». arXiv:2002.08878 [cs.MA].
↑ Killian, Jackson; Xu, Lily; Biswas, Arpita; Verma, Shresth (2023). Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program. AAAI.
↑ Krishnan, Srivatsan; Jaques, Natasha; Omidshafiei, Shayegan; Zhang, Dan; Gur, Izzeddin; Reddi, Vijay Janapa; Faust, Aleksandra (2022). «Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration». arXiv:2211.16385 [cs.AR].
↑ Li, Yuanzheng; He, Shangyang; Li, Yang; Shi, Yang; Zeng, Zhigang (2023). «Federated Multiagent Deep Reinforcement Learning Approach via Physics-Informed Reward for Multimicrogrid Energy Management». IEEE Transactions on Neural Networks and Learning Systems. PP: 1-13. PMID 37018258. S2CID 255372287. arXiv:2301.00641. doi:10.1109/TNNLS.2022.3232630.
↑ Ci, Hai; Liu, Mickel; Pan, Xuehai; Zhong, Fangwei; Wang, Yizhou (2023). Proactive Multi-Camera Collaboration for 3D Human Pose Estimation. International Conference on Learning Representations.
↑ Vinitsky, Eugene; Kreidieh, Aboudy; Le Flem, Luc; Kheterpal, Nishant; Jang, Kathy; Wu, Fangyu; Liaw, Richard; Liang, Eric et al. (2018). Benchmarks for reinforcement learning in mixed-autonomy traffic. Conference on Robot Learning.
↑ Tuyls, Karl; Omidshafiei, Shayegan; Muller, Paul; Wang, Zhe; Connor, Jerome; Hennes, Daniel; Graham, Ian; Spearman, William et ál. (2020). «Game Plan: What AI can do for Football, and What Football can do for AI». arXiv:2011.09192 [cs.AI].
↑ Chu, Tianshu; Wang, Jie; Codec├á, Lara; Li, Zhaojian (2019). «Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control». arXiv:1903.04527 [cs.LG].
↑ Belletti, Francois; Haziza, Daniel; Gomes, Gabriel; Bayen, Alexandre M. (2017). «Expert Level control of Ramp Metering based on Multi-task Deep Reinforcement Learning». arXiv:1701.08832 [cs.AI].
↑ Ding, Yahao; Yang, Zhaohui; Pham, Quoc-Viet; Zhang, Zhaoyang; Shikh-Bahaei, Mohammad (2023). «Distributed Machine Learning for UAV Swarms: Computing, Sensing, and Semantics». arXiv:2301.00912 [cs.LG].
↑ Xu, Lily; Perrault, Andrew; Fang, Fei; Chen, Haipeng; Tambe, Milind (2021). «Robust Reinforcement Learning Under Minimax Regret for Green Security». arXiv:2106.08413 [cs.LG].
↑ Hernandez-Leal, Pablo; Kartal, Bilal; Taylor, Matthew E. (1 de noviembre de 2019). «A survey and critique of multiagent deep reinforcement learning». Autonomous Agents and Multi-Agent Systems (en inglés) 33 (6): 750-797. ISSN 1573-7454. arXiv:1810.05587. doi:10.1007/s10458-019-09421-1.

[1] Albrecht, Stefano; Stone, Peter (2017), «Multiagent Learning: Foundations and Recent Trends. Tutorial», IJCAI-17 conference .

[2] Bettini, Matteo; Kortvelesy, Ryan; Blumenkamp, Jan; Prorok, Amanda (2022). «VMAS: A Vectorized Multi-Agent Simulator for Collective Robot Learning». The 16th International Symposium on Distributed Autonomous Robotic Systems (Springer). arXiv:2207.03530.

[Li_2022-3] ↑ ^a ^b ^c ^d ^e ^f ^g ^h Li, Tianxu; Zhu, Kun; Luong, Nguyen Cong; Niyato, Dusit; Wu, Qihui; Zhang, Yang; Chen, Bing (2021). «Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey». arXiv:2110.13484 [cs.AI].

[4] Le, Ngan; Rathour, Vidhiwar Singh; Yamazaki, Kashu; Luu, Khoa; Savvides, Marios (2021). «Deep Reinforcement Learning in Computer Vision: A Comprehensive Survey». arXiv:2108.11510 [cs.CV].

[5] Moulin-Frier, Clément; Oudeyer, Pierre-Yves (2020). «Multi-Agent Reinforcement Learning as a Computational Tool for Language Evolution Research: Historical Context and Future Challenges». arXiv:2002.08878 [cs.MA].

[6] Killian, Jackson; Xu, Lily; Biswas, Arpita; Verma, Shresth (2023). Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program. AAAI.

[7] Krishnan, Srivatsan; Jaques, Natasha; Omidshafiei, Shayegan; Zhang, Dan; Gur, Izzeddin; Reddi, Vijay Janapa; Faust, Aleksandra (2022). «Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration». arXiv:2211.16385 [cs.AR].

[8] Li, Yuanzheng; He, Shangyang; Li, Yang; Shi, Yang; Zeng, Zhigang (2023). «Federated Multiagent Deep Reinforcement Learning Approach via Physics-Informed Reward for Multimicrogrid Energy Management». IEEE Transactions on Neural Networks and Learning Systems. PP: 1-13. PMID 37018258. S2CID 255372287. arXiv:2301.00641. doi:10.1109/TNNLS.2022.3232630.

[9] Ci, Hai; Liu, Mickel; Pan, Xuehai; Zhong, Fangwei; Wang, Yizhou (2023). Proactive Multi-Camera Collaboration for 3D Human Pose Estimation. International Conference on Learning Representations.

[10] Vinitsky, Eugene; Kreidieh, Aboudy; Le Flem, Luc; Kheterpal, Nishant; Jang, Kathy; Wu, Fangyu; Liaw, Richard; Liang, Eric et al. (2018). Benchmarks for reinforcement learning in mixed-autonomy traffic. Conference on Robot Learning.

[11] Tuyls, Karl; Omidshafiei, Shayegan; Muller, Paul; Wang, Zhe; Connor, Jerome; Hennes, Daniel; Graham, Ian; Spearman, William et ál. (2020). «Game Plan: What AI can do for Football, and What Football can do for AI». arXiv:2011.09192 [cs.AI].

[12] Chu, Tianshu; Wang, Jie; Codec├á, Lara; Li, Zhaojian (2019). «Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control». arXiv:1903.04527 [cs.LG].

[13] Belletti, Francois; Haziza, Daniel; Gomes, Gabriel; Bayen, Alexandre M. (2017). «Expert Level control of Ramp Metering based on Multi-task Deep Reinforcement Learning». arXiv:1701.08832 [cs.AI].

[14] Ding, Yahao; Yang, Zhaohui; Pham, Quoc-Viet; Zhang, Zhaoyang; Shikh-Bahaei, Mohammad (2023). «Distributed Machine Learning for UAV Swarms: Computing, Sensing, and Semantics». arXiv:2301.00912 [cs.LG].

[15] Xu, Lily; Perrault, Andrew; Fang, Fei; Chen, Haipeng; Tambe, Milind (2021). «Robust Reinforcement Learning Under Minimax Regret for Green Security». arXiv:2106.08413 [cs.LG].

[16] Hernandez-Leal, Pablo; Kartal, Bilal; Taylor, Matthew E. (1 de noviembre de 2019). «A survey and critique of multiagent deep reinforcement learning». Autonomous Agents and Multi-Agent Systems (en inglés) 33 (6): 750-797. ISSN 1573-7454. arXiv:1810.05587. doi:10.1007/s10458-019-09421-1.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]