Modelos da fÃsica estatÃstica para agrupamento nÃo supervisionado de dados / Modelos da fÃsica estatÃstica para agrupamento nÃo supervisionado de dados

AUTOR(ES)
DATA DE PUBLICAÇÃO

2004

RESUMO

Nesta dissertaÃÃo, o problema do agrupamento nÃo-supervisionado de dados ou padrÃes à investigado, com enfoque em dois recentes mÃtodos fundamentados na FÃsica EstatÃstica. Basicamente, estes mÃtodos associam os elementos do banco de dados aos elementos de um sistema fÃsico, os quais se acoplam atravÃs de uma interaÃÃo de alcance nito. O critÃrio de similaridade entre os dados, necessÃrio para a formaÃÃo dos agrupamentos, està associado a uma grandeza fÃsica do sistema. O primeiro mÃtodo, chamado agrupamento super-paramagnÃtico, associa cada padrÃo (matematicamente denido como um ponto no espaÃo de atributos D-dimensional) a uma variÃvel de spin do modelo de Potts ferromagnÃtico nÃo homogÃneo. Neste caso, dois pontos pertencem ao mesmo cluster quando a correlaÃÃo spin-spin, no equilÃbrio termodinÃmico a uma temperatura T, està acima de um certo limiar. No segundo mÃtodo, o conjunto de dados à associado a um sistema de mapas caÃticos acoplados e as classicaÃÃes emergem da sincronia destes mapas. A fundamentaÃÃo teÃrica e as implementaÃÃes computacionais destes dois mÃtodos sÃo apresentadas e comparativamente discutidas. Os mÃtodos sÃo aplicados a trÃs conjuntos de dados sintÃticos que, por razÃes de visualizaÃÃo, sÃo formados por padrÃes de pontos em um espaÃo bidimensional limitado. Os padrÃes sÃo especicamente escolhidos para testar e comparar as potencialidades dos mÃtodos empregados. O agrupamento superparamagnÃtico, por estar fundamentado em um sistema de spins ferromagnÃtico, mostra-se mais robusto com a relaÃÃo aos ruÃdos de fundo ou background, evitando a agregaÃÃo aos clusters de possÃveis "trilhas"(de carÃter unidimensional) que se formam no background. Em decorrÃncia, o agrupamento super-paramagnÃtico identifica os clusters atravÃs de suas densidades e correlaÃÃes locais com maior precisÃo, sendo apropriado para identicar e delimitar formas mais compactas eliminando ruÃdos de fundo nas fronteiras. Por outro lado, o mÃtodo por associaÃÃo a mapas caÃticos possui maior sensibilidade para identicar estruturas com carÃter unidimensional subjacentes aos ruÃdos de fundo, por conta das conexÃes locais terem grande influÃncia na transmissÃo das correlaÃÃes, sendo, portanto mais eciente na classicaÃÃo de clusters com estruturas mais complexas. Computacionalmente, o agrupamento atravÃs de mapas caÃticos mostrou-se ser à 265 vezes mais rÃpido que o agrupamento super-paramagnÃtico quando aplicado aos conjuntos de dados aqui selecionados, tendo em vista que o Ãltimo carece de realizar simulaÃÃes numÃricas atravÃs do mÃtodo Monte Carlo estabilizando termicamente o sistema para cada valor de temperatura considerado

ASSUNTO(S)

dados - agrupamento nÃo supervisionado fÃsica estatÃstica fisica

Documentos Relacionados