Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados

AUTOR(ES)
FONTE

TEMA (São Carlos)

DATA DE PUBLICAÇÃO

2017-04

RESUMO

RESUMO Galáxias podem possuir diferentes morfologias, as quais são importantes fontes de informação para o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Por não ser possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e galáxias merger. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias merger, as melhores predições foram provenientes das abordagens de sobreamostragem e mudança de corte. Para o caso de galáxias regulares, a importância de considerar o desbalanceamento foi menor, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de galáxias merger. Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas por meio da inclusão de novas estatísticas-resumo com base nas imagens ou por meio de bancos de dados maiores.

ASSUNTO(S)

classificação conjunto de dados desbalanceados aprendizado de máquina

Documentos Relacionados