Correlation identification using the fractal theory / "Identificação de correlações usando a Teoria dos Fractais"

AUTOR(ES)
DATA DE PUBLICAÇÃO

2006

RESUMO

O volume de informação manipulada em sistemas apoiados por computador tem crescido tanto no número de objetos que compõem os conjuntos de dados quanto na quantidade e na complexidade dos atributos. Em conjuntos de dados do mundo real, a uniformidade na distribuição de valores e a independência entre atributos são propriedades bastante incomuns. De fato, dados reais são em geral caracterizados pela ampla presença de correlações entre seus atributos. Além disso, num mesmo conjunto podem existir correlações de naturezas diversas, como correlações lineares, não-lineares e não-polinomiais. Todo esse cenário pode degradar a performance dos algoritmos que manipulam e, principalmente, dos que realizam análises dos dados. Além da grande quantidade de objetos a serem tratados e do número elevado de atributos, as correlações nem sempre são conhecidas, o que pode comprometer a eficácia de tais algoritmos. Nesse contexto, as técnicas de redução de dimensionalidade permitem diminuir o número de atributos de um conjunto de dados, minimizando assim os problemas decorrentes da alta dimensionalidade. Algumas delas são baseadas na análise de correlações e, com o objetivo de reduzir a perda de informação relevante causada pela remoção de atributos, procuram eliminar apenas aqueles que sejam correlacionados aos restantes. No entanto, essas técnicas geralmente analisam como cada atributo está correlacionado a todos os demais, tratando o conjunto de atributos como um todo e usando ferramentas de análise estatística. Esta tese propõe uma abordagem diferente, baseada na Teoria dos Fractais, para detectar a existência de correlações e identificar subconjuntos de atributos correlacionados. Para cada correlação encontrada é possível ainda identificar quais são os atributos que melhor a descrevem. Conseqüentemente, um subconjunto de atributos relevantes para representar as características fundamentais dos dados é determinado, não apenas com base em correlações globais entre todos os atributos, mas também levando em consideração especificidades de correlações que envolvem subconjuntos reduzidos. A técnica apresentada é uma ferramenta a ser utilizada em etapas de pré-processamento de atividades de descoberta de conhecimento, principalmente em operações de seleção de atributos para redução de dimensionalidade. A proposta para a identificação de correlações e os conceitos que a fundamentam são validados por meio de estudos experimentais usando tanto dados sintéticos quanto reais. Finalmente, os conceitos básicos da Teoria dos Fractais são aplicados na análise de comportamento de data streams, também constituindo uma contribuição relevante desta tese de doutorado.

ASSUNTO(S)

correlation identification teoria dos fractais data streams data streams fractal theory identificação de correlações

Documentos Relacionados