Aprendizado por Reforço com Valores deInfluência em Sistemas Multi-Agente

AUTOR(ES)
DATA DE PUBLICAÇÃO

2009

RESUMO

Propomos um novo paradigma de aprendizado coletivo em sistemas multi-agentes (SMA) como uma solução para o problema em que vários agentes devem aprender como realizar tarefas agindo sobre um mesmo ambiente, simultaneamente, baseando-se em retornos fornecidos por cada um dos outros agentes. Introduzimos o paradigma proposto na forma do algoritmo de aprendizado por reforço, denominando-o de aprendizado por reforço com valores de influência. Cada agente aprendendo por reforço avalia a relação existente entre o valor do seu estado atual e/ou a ação executada no estado (crenças atuais) junto com a recompensa obtida após todos os agentes que estão interagindo executarem suas ações (resultado da interferência dos outros). O agente pondera as opiniões de todos os seus colegas na tentativa de mudar os valores dos seus estados e/ou ações. A idéia é que o sistema como um todo deve chegar a um equilíbrio, onde todos os agentes se sentem satisfeitos com os resultados obtidos, significando que os valores dos estados ou pares estado/ação casam-se com a recompensa obtida por cada agente. Esta forma dinâmica de atualizar o valor dos estados e/ou ações faz deste novo paradigma de aprendizado por reforço o primeiro a incluir, naturalmente, o fato de que a presença de outros agentes no ambiente o torna dinâmico. Como resultado direto, incluímos implicitamente o estado interno, as ações e a recompensa obtida por todos os outros agentes dentro do estado interno de cada agente. Isso faz de nossa proposta a primeira solução completa para o problema conceitual que surge ao aplicar aprendizado por reforço em sistemas multi-agente, causado pela diferença existente entre o modelo do ambiente e o modelo do agente. Com base no modelo proposto, criamos o algoritmo IVQ-Learning, testado exaustivamente em jogos repetitivos com dois, três e quatro agentes e em jogos estocásticos que exijam cooperação e em jogos que exijam colaboração. Este algoritmo mostra-se como uma boa opção na tentativa de obter soluções que garantam a convergência para o equilíbrio de Nash ótimo em problemas cooperativos. Os experimentos realizados deixam claro que o paradigma proposto é teórica e experimentalmente superior aos paradigmas tradicionais. Ainda, com a criação deste novo paradigma, o conjunto de aplicações de aprendizado por reforço em SMA foi ampliado. Ou seja, além da possibilidade de aplicar os algoritmos nos problemas tradicionais de aprendizado em SMA, como por exemplo coordenação de tarefas em sistemas multi-robô, é possível aplicar aprendizado por reforço nos problemas essencialmente colaborativos

ASSUNTO(S)

collaboration engenharia eletrica colaboração aprendizado por reforço auto-organização sistemas multi-agente coordination reinforcement learning multi agent systems coordenação self-organization

Documentos Relacionados