Análise do índice de nebulosidade para otimização do processo de agrupamentos de dados / Analysis of cloudiness index for process optimization of data arrays

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

09/10/2012

RESUMO

A técnica de análise de agrupamento (clustering analysis) é uma ferramenta importante na pesquisa científica, podendo ser utilizada em diversas áreas do conhecimento tais como medicina, biologia e estatística. Agrupar dados é uma forma de refletir a estrutura interna dos dados e identificar classes presentes nesses agrupamentos, de modo que haja homogeneidade dentro das mesmas classes e heterogeneidade entre classes diferentes. Existem vários métodos de agrupamentos utilizados para encontrar o particionamento ótimo, dentre estes pode-se destacar: os métodos hierárquicos, métodos baseados em teorias dos grafos e métodos baseados em função objetivo. Neste trabalho foi utilizado o algoritmo baseado na função objetivo Fuzzy C-Means em conjunto com a técnica de reamostragem bootstrap. A ideia é variar o índice de nebulosidade para encontrar a melhor faixa de valores a ser utilizada para a classificação dos dados e consequentemente obtenção de melhores particionamentos. A qualidade da classificação é baseada em medidas de comparação tradicionais tais como Classificação Cruzada (Acc), F1, Hubert (Hub), Jaccard, Índice Randômico (Rand) e Fowlkes and Mallows (Fowlkes). As bases de dados utilizadas foram a Iris, Wine e três bases de dados artificiais. Os resultados obtidos demonstram que a melhor faixa de valor para o índice de nebulosidade está entre 1,04 e 1,2 para as medidas e bases de dados estudadas.

ASSUNTO(S)

engenharia eletrica agrupamento de dados Índice de nebulosidade fuzzy c-means clustering analysis weighting exponent index cloudiness

Documentos Relacionados