Planejamento online para robÃ mÃvel baseado em amostragem esparsa e macro-operadores.

Alves, Celeny Fernandes

Modelos baseados na teoria de Processos DecisÃrios de Markov (PDM) tÃm sido propostos para situaÃÃes realistas a serem enfrentadas por robÃs mÃveis aplicados a tarefas que envolvem navegaÃÃo (vigilÃncia, distribuiÃÃo de mensagens, etc.). Entretanto, um aspecto crÃtico em problemas reais Ã a enorme dimensÃo do espaÃo de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM sÃo baseados em um mapeamento explÃcito entre estados e aÃÃes, tal situaÃÃo normalmente forÃa o uso de representaÃÃes do espaÃo de estados compactas, para as quais nÃo existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho Ã a anÃlise de mecanismos que permitam o planejamento online eficiente em robÃtica mÃvel, em situaÃÃes realistas nas quais nÃo Ã possÃvel o uso de uma representaÃÃo explÃcita dos estados devido Ã dimensÃo do espaÃo de estados. Ã considerada uma tÃcnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta tÃcnica Ã baseada em amostragem esparsa de instÃncias simuladas de um modelo do PDM que representa a interaÃÃo do robÃ com o seu ambiente, e pode ser combinada ao uso de opÃÃes (macro-operadores) que correspondem a seqÃÃncias de aÃÃes primitivas. O uso de opÃÃes pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploraÃÃo mais efetiva do espaÃo de estados, o que acelera a convergÃncia do aprendizado. Entretanto, o tempo de execuÃÃo deste algoritmo Ã exponencial no nÃvel de exploraÃÃo e no nÃmero de amostras a serem gerados. Deste modo, este trabalho propÃe uma melhoria para o algoritmo de AE, atravÃs da utilizaÃÃo de informaÃÃes prÃ-processadas do ambiente a ser explorado. Tais informaÃÃes sÃo adquiridas a partir da execuÃÃo do algoritmo de aprendizado por reforÃo Q-Leaning sobre uma discretizaÃÃo do espaÃo de estados deste ambiente.

Planejamento online para robÃ mÃvel baseado em amostragem esparsa e macro-operadores.

AUTOR(ES)

DATA DE PUBLICAÇÃO

RESUMO

ASSUNTO(S)

ACESSO AO ARTIGO

Documentos Relacionados