Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados
AUTOR(ES)
IANISHI, P., IZBICKI, R.
FONTE
TEMA (São Carlos)
DATA DE PUBLICAÇÃO
2017-04
RESUMO
RESUMO Galáxias podem possuir diferentes morfologias, as quais são importantes fontes de informação para o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Por não ser possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e galáxias merger. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias merger, as melhores predições foram provenientes das abordagens de sobreamostragem e mudança de corte. Para o caso de galáxias regulares, a importância de considerar o desbalanceamento foi menor, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de galáxias merger. Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas por meio da inclusão de novas estatísticas-resumo com base nas imagens ou por meio de bancos de dados maiores.
ASSUNTO(S)
classificação conjunto de dados desbalanceados aprendizado de máquina
Documentos Relacionados
- Aprendizado supervisionado com conjuntos de dados desbalanceados
- Novos critérios para seleção de modelos neurais em problemas de classificação com dados desbalanceados
- O modelo de regressão linear misto para dados longitudinais: uma aplicação na análise de dados antropométricos desbalanceados
- Data mining in large sets of complex data
- A teoria da classificação facetada na modelagem de dados em banco de dados computacionais