Avaliação experimental da imputação múltipla e composta de valores ausentes no processo mineração de dados.

AUTOR(ES)
DATA DE PUBLICAÇÃO

2010

RESUMO

O problema de tratamento de valores ausentes em Mineração de Dados tem sido um desafio de pesquisa. O tratamento incorreto das ausências pode implicar prejuízo à qualidade e à validação dos resultados gerados no processo de Mineração. Uma forma de tratar esses dados é utilizar métodos de imputação, ou seja, o preenchimento dos dados através de dados estimados a partir das relações conhecidas dos dados reais. Assim, este trabalho propõe realizar vários experimentos de imputação de valores ausentes com a integração dos conceitos de imputação múltipla e composta com o objetivo de melhorar o desempenho baseado nos valores estimados para preenchimento. A abordagem desta pesquisa levou em consideração o tipo do conjunto de dados, características de distribuição destes dados, tipos e quantidade de atributos univariados e multivariados com valores ausentes, além de diferentes taxas de porcentagens e mecanismos de ausência de dados. O objetivo de inserir valores ausentes artificialmente em um conjunto completo foi permitir a avaliação da qualidade dos métodos de imputação a partir da relação dos valores imputados e dos valores originais eliminados. Aplicou-se o conceito de imputação composta para dinamizar e aperfeiçoar o processo de imputação. Para tanto foram usados dois métodos em conjunto: método de procedimentos baseados em imputação única, Hot Deck (visão estocástica) e Média (visão determinística); e método com procedimentos baseados em modelos, Estimativa de Densidade de Probabilidade, através do método do K-Vizinhos Mais Próximos (KNN). Comparou-se, conseqüentemente, com a imputação por Média e Máxima Verossimilhança, além do método de eliminação ListWise. Posteriormente, análises das qualidades das imputações realizadas são avaliadas através de medidas estatísticas, mostrando bom comportamento do método KNN no contexto geral de imputações.

ASSUNTO(S)

algoritmos identificação de parâmetros mineração de dados complexidade computacional métodos estatísticos modelos matemáticos recuperação da informação rotinas de entrada e saída de dados

Documentos Relacionados