Modelagem de aprendizagem por reforço e controle em nível meta para melhorar a performance da comunicação em gerência de tráfego aéreo

AUTOR(ES)
DATA DE PUBLICAÇÃO

2006

RESUMO

ma solução computacional que utiliza troca de mensagens lida com a dificuldade em decidir qual a melhor ação a ser executada na medida que uma nova mensagem chega. No caso específico da área de trafego aéreo, o uso de troca de mensagens e empregado para manter consistentes as informações distribuídas entre os aeroportos, sujeitas às características estocásticas deste contexto. O uso de gerência em nível meta e a aprendizagem por reforço foram empregados, neste trabalho, com intuito de apresentar uma estratégia para tratar o problema de gerência da imensa quantidade de mensagens geradas no contexto de trafego aéreo. A estratégia proposta fundamenta-se na busca pela adaptação por meio da aprendizagem durante o processo de tomada de decisão. A idéia é empregar uma camada adicional de controle em nível meta sobre a camada de controle já existente no sistema hospedeiro para auxiliar o processo de tomada de decisão. A decisão passa a ser tomada com uso da experiência adquirida pelo agente com a aprendizagem por reforço melhorada por heurísticas propostas. O trabalho, então, propõe um modelo de computação inteligente para auxílio do processo de tomada de decisão de um sistema distribuído aplicado a Air Traffic Flow Management (ATFM). Ele é indicado para atuar na comunicação via troca de mensagens entre aeroportos, trabalhando como uma camada adicional em um aeroporto que usa os metadados das mensagens em suas decisões, com vistas à otimização na definição de uma hierarquia para atendimento ás mensagens. O modelo e considerado inovador porque usa aprendizagem por reforço adequada ás características deste ambiente estocástico, preocupando-se com a velocidade e qualidade do processo de tomada de decisão. Na modelagem, três estratégias foram propostas para a aprendizagem: heurística inicial, epsilon adaptativo e heurística baseada em performance. Elas são combinadas aos algoritmos de aprendizado por reforço: Q-learning e SARSA. Os estudos de caso avaliam o desempenho, a qualidade do aprendizado quanto ás três melhorias propostas e também o comportamento do Q-learning quando são alterados parâmetros do algoritmo.

ASSUNTO(S)

ciencia da computacao reinforcement learning agentes inteligentes processo decisório de markov gerência de fluxo de tráfego aéreo. meta-level control markov decision process controle em nível meta aprendizagem por reforço intelligent agents air traffic fow management.

Documentos Relacionados