Avaliação e descoberta de políticas de ação para agentes autônomos adaptativos

Richardson Ribeiro

Esta dissertação apresenta uma nova metodologia, denominada MAP, para avaliar o desempenho do algoritmo Q-Learning e outras técnicas de estimação de políticas de ação para agentes autônomos adaptativos. A avaliação de políticas de ação produzidas por esses métodos de aprendizagem é uma tarefa complexa. Isso ocorre devido à falta de mecanismos genéricos que permitam medir o desempenho de um agente de aprendizagem sem demandar conhecimentos do domínio do problema e de longos processos de simulação, dificultando a compreensão dos resultados e a aplicação da técnica em diferentes ambientes. Na metodologia proposta, o desempenho de um agente é proporcional ao número de acertos produzidos pela sua política de ações em um dado ambiente. Uma política representa um espaço de estados onde existe um estado inicial, um estado final e um conjunto de transições de estados determinada por diferentes ações. Portanto, um acerto é obtido quando o agente encontra um caminho de menor custo entre o estado inicial e o estado final. Quando isso ocorre para todos os estados candidatos, pode-se dizer que uma política ótima foi descoberta. Dessa forma, a avaliação de uma política utiliza um algoritmo de resolução de problemas capaz de encontrar o caminho ótimo entre dois estados. Essa metodologia de avaliação permite observar o comportamento dos algoritmos em função do número de iterações, configuração do ambiente e valores dos parâmetros relacionados ao algoritmo de aprendizagem. MAP foi integrada a um sistema híbrido de aprendizagem visando diminuir a quantidade de iterações e o erro de um agente adaptativo. O método híbrido de aprendizagem combina aprendizagem por reforço e aprendizagem baseada em instâncias para a descoberta de políticas de ação. O método proposto, chama-se K-Learning e integra os algoritmos Q-Learning e K-NN. Verificou-se que o K-Learning pode ser superior ao Q-Learning em experimentos empíricos conduzindo o agente para uma política de boa qualidade mais rapidamente.

Avaliação e descoberta de políticas de ação para agentes autônomos adaptativos

AUTOR(ES)

DATA DE PUBLICAÇÃO

RESUMO

ASSUNTO(S)

ACESSO AO ARTIGO

Documentos Relacionados