Planejamento online para robà mÃvel baseado em amostragem esparsa e macro-operadores.

AUTOR(ES)
DATA DE PUBLICAÇÃO

2007

RESUMO

Modelos baseados na teoria de Processos DecisÃrios de Markov (PDM) tÃm sido propostos para situaÃÃes realistas a serem enfrentadas por robÃs mÃveis aplicados a tarefas que envolvem navegaÃÃo (vigilÃncia, distribuiÃÃo de mensagens, etc.). Entretanto, um aspecto crÃtico em problemas reais à a enorme dimensÃo do espaÃo de estados. Como praticamente todos os algoritmos de aprendizagem de controle ou planejamento que utilizam PDM sÃo baseados em um mapeamento explÃcito entre estados e aÃÃes, tal situaÃÃo normalmente forÃa o uso de representaÃÃes do espaÃo de estados compactas, para as quais nÃo existem algoritmos de aprendizagem ou planejamento comprovadamente eficientes, ou mesmo convergentes nos casos mais gerais. O objetivo deste trabalho à a anÃlise de mecanismos que permitam o planejamento online eficiente em robÃtica mÃvel, em situaÃÃes realistas nas quais nÃo à possÃvel o uso de uma representaÃÃo explÃcita dos estados devido à dimensÃo do espaÃo de estados. à considerada uma tÃcnica de planejamento relatada na literatura conhecida como Amostragem Esparsa (AE). Esta tÃcnica à baseada em amostragem esparsa de instÃncias simuladas de um modelo do PDM que representa a interaÃÃo do robà com o seu ambiente, e pode ser combinada ao uso de opÃÃes (macro-operadores) que correspondem a seqÃÃncias de aÃÃes primitivas. O uso de opÃÃes pode ser visto como uma melhoria ao desempenho do algoritmo de AE, pois em tarefas de aprendizagem, seu uso produz exploraÃÃo mais efetiva do espaÃo de estados, o que acelera a convergÃncia do aprendizado. Entretanto, o tempo de execuÃÃo deste algoritmo à exponencial no nÃvel de exploraÃÃo e no nÃmero de amostras a serem gerados. Deste modo, este trabalho propÃe uma melhoria para o algoritmo de AE, atravÃs da utilizaÃÃo de informaÃÃes prÃ-processadas do ambiente a ser explorado. Tais informaÃÃes sÃo adquiridas a partir da execuÃÃo do algoritmo de aprendizado por reforÃo Q-Leaning sobre uma discretizaÃÃo do espaÃo de estados deste ambiente.

ASSUNTO(S)

amostragem inteligÃncia artificial planejamento de tarefas (robÃtica) dinÃmica de robÃs aprendizagem

Documentos Relacionados