Aprendizaje por refuerzo multiagente
El aprendizaje por refuerzo de multiagente es un subcampo del aprendizaje por refuerzo . Se centra en estudiar el comportamiento de múltiples agentes de aprendizaje que conviven en un entorno compartido.[1] Cada agente está motivado por sus propias recompensas y realiza acciones para promover sus propios intereses.
Definición
editarDe manera similar al aprendizaje por refuerzo de un solo agente, el aprendizaje por refuerzo de múltiples agentes se modela como una forma de proceso de decisión de Markov (MDP) . Por ejemplo:
- Un conjunto de estados ambientales.
- Un set de acciones para cada uno de los agentes .
- es la probabilidad de transición (en el tiempo ) del estado a estado bajo acción conjunta .
- es la recompensa conjunta inmediata después de la transición de a con acción conjunta .
En escenarios con información perfecta, como los juegos de ajedrez y Go, el MDP sería totalmente observable. En entornos con información imperfecta, especialmente en aplicaciones del mundo real como los automóviles autónomos, cada agente accedería a una observación que solo tiene parte de la información sobre el estado actual.
Cooperación versus competencia
editarCuando varios agentes actúan en un entorno compartido, sus intereses pueden estar alineados o desalineados.
Escenarios de competición pura
editarCuando dos agentes están jugando un juego de suma cero, están en pura competencia entre sí. Muchos juegos tradicionales como el ajedrez y el Go entran en esta categoría, al igual que las variantes para dos jugadores de juegos modernos como StarCraft . Debido a que cada agente solo puede ganar a expensas del otro agente, se eliminan muchas complejidades.
Entornos de cooperación pura
editarEn escenarios de pura cooperación todos los agentes obtienen recompensas idénticas.
En entornos de pura cooperación, a menudo hay un número arbitrario de estrategias de coordinación y los agentes convergen en "convenciones" específicas cuando se coordinan entre sí.
Configuraciones de suma mixta
editarLa mayoría de los escenarios del mundo real que involucran a múltiples agentes tienen elementos tanto de cooperación como de competencia.
Dilemas sociales
editarAl igual que en la teoría de juegos, gran parte de la investigación en MARL gira en torno a dilemas sociales
Mientras que la investigación de la teoría de juegos podría centrarse en los equilibrios de Nash y cuál sería una política ideal para un agente, la investigación de MARL se centra en cómo los agentes aprenderían estas políticas ideales mediante un proceso de prueba y error.
Dilemas sociales secuenciales
editarLos dilemas sociales como el dilema del prisionero, la caza del pollo y del ciervo son "juegos de matriz". Cada agente realiza solo una acción de una elección de dos acciones posibles.
Aplicaciones
editarEl aprendizaje por refuerzo de múltiples agentes se ha aplicado a:
- Broadband cellular networks such as 5G[3]
- Content caching[3]
- Packet routing[3]
- Computer vision[4]
- Network security[3]
- Transmit power control[3]
- Computation offloading[3]
- Language evolution research[5]
- Global health[6]
- Integrated circuit design[7]
- Internet of Things[3]
- Microgrid energy management[8]
- Multi-camera control[9]
- Autonomous vehicles[10]
- Sports analytics[11]
- Traffic control[12] (Ramp metering[13])
- Unmanned aerial vehicles[14][3]
- Wildlife conservation[15]
Limitaciones
editarExisten algunas dificultades inherentes al aprendizaje por refuerzo profundo multiagente.[16] El entorno ya no es estacionario, por lo que se viola la propiedad de Markov.
Software
editarExisten varias herramientas y marcos para trabajar con entornos de aprendizaje reforzado multiagente:
Otras lecturas
editar
- Yang, Yaodong; Wang, Jun (2020). «An Overview of Multi-Agent Reinforcement Learning from Game Theoretical Perspective».
.
Referencias
editar- ↑ Albrecht, Stefano; Stone, Peter (2017), «Multiagent Learning: Foundations and Recent Trends. Tutorial», IJCAI-17 conference.
- ↑ Bettini, Matteo; Kortvelesy, Ryan; Blumenkamp, Jan; Prorok, Amanda (2022). «VMAS: A Vectorized Multi-Agent Simulator for Collective Robot Learning». The 16th International Symposium on Distributed Autonomous Robotic Systems (Springer). arXiv:2207.03530.
- ↑ a b c d e f g h Li, Tianxu; Zhu, Kun; Luong, Nguyen Cong; Niyato, Dusit; Wu, Qihui; Zhang, Yang; Chen, Bing (2021). «Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey». .
- ↑ Le, Ngan; Rathour, Vidhiwar Singh; Yamazaki, Kashu; Luu, Khoa; Savvides, Marios (2021). «Deep Reinforcement Learning in Computer Vision: A Comprehensive Survey». .
- ↑ Moulin-Frier, Clément; Oudeyer, Pierre-Yves (2020). «Multi-Agent Reinforcement Learning as a Computational Tool for Language Evolution Research: Historical Context and Future Challenges». .
- ↑ Killian, Jackson; Xu, Lily; Biswas, Arpita; Verma, Shresth (2023). Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program. AAAI.
- ↑ Krishnan, Srivatsan; Jaques, Natasha; Omidshafiei, Shayegan; Zhang, Dan; Gur, Izzeddin; Reddi, Vijay Janapa; Faust, Aleksandra (2022). «Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration». .
- ↑ Li, Yuanzheng; He, Shangyang; Li, Yang; Shi, Yang; Zeng, Zhigang (2023). «Federated Multiagent Deep Reinforcement Learning Approach via Physics-Informed Reward for Multimicrogrid Energy Management». IEEE Transactions on Neural Networks and Learning Systems. PP: 1-13. PMID 37018258. S2CID 255372287. arXiv:2301.00641. doi:10.1109/TNNLS.2022.3232630.
- ↑ Ci, Hai; Liu, Mickel; Pan, Xuehai; Zhong, Fangwei; Wang, Yizhou (2023). Proactive Multi-Camera Collaboration for 3D Human Pose Estimation. International Conference on Learning Representations.
- ↑ Vinitsky, Eugene; Kreidieh, Aboudy; Le Flem, Luc; Kheterpal, Nishant; Jang, Kathy; Wu, Fangyu; Liaw, Richard; Liang, Eric et al. (2018). Benchmarks for reinforcement learning in mixed-autonomy traffic. Conference on Robot Learning.
- ↑ Tuyls, Karl; Omidshafiei, Shayegan; Muller, Paul; Wang, Zhe; Connor, Jerome; Hennes, Daniel; Graham, Ian; Spearman, William et ál. (2020). «Game Plan: What AI can do for Football, and What Football can do for AI». .
- ↑ Chu, Tianshu; Wang, Jie; Codec├á, Lara; Li, Zhaojian (2019). «Multi-Agent Deep Reinforcement Learning for Large-scale Traffic Signal Control». .
- ↑ Belletti, Francois; Haziza, Daniel; Gomes, Gabriel; Bayen, Alexandre M. (2017). «Expert Level control of Ramp Metering based on Multi-task Deep Reinforcement Learning». .
- ↑ Ding, Yahao; Yang, Zhaohui; Pham, Quoc-Viet; Zhang, Zhaoyang; Shikh-Bahaei, Mohammad (2023). «Distributed Machine Learning for UAV Swarms: Computing, Sensing, and Semantics». .
- ↑ Xu, Lily; Perrault, Andrew; Fang, Fei; Chen, Haipeng; Tambe, Milind (2021). «Robust Reinforcement Learning Under Minimax Regret for Green Security». .
- ↑ Hernandez-Leal, Pablo; Kartal, Bilal; Taylor, Matthew E. (1 de noviembre de 2019). «A survey and critique of multiagent deep reinforcement learning». Autonomous Agents and Multi-Agent Systems (en inglés) 33 (6): 750-797. ISSN 1573-7454. arXiv:1810.05587. doi:10.1007/s10458-019-09421-1.