CobMiner - MineraÃÃo de PadrÃes Arborescentes com RestriÃÃes

AUTOR(ES)
DATA DE PUBLICAÇÃO

2007

RESUMO

Hà muito trabalho em mineraÃÃo de padrÃes com foco em estruturas de dados simples como itemsets ou seqÃÃncia de itemsets. Entretanto, recentes aplicaÃÃes utilizam dados mais complexos como componentes quÃmicos, estruturas proteicas, rede social, XML e logs da Web, exigindo estruturas de dados mais sofisticadas (Ãrvores ou grafos) para serem especificadas. Aqui, padrÃes de interesse nÃo envolvem apenas valores de objetos frequentes labels que aparecem em Ãrvores (ou grafos), mas tambÃm topologias especÃficas frequentes encontradas nessas estruturas. A mineraÃÃo de padrÃes de Ãrvores frequentes tem sido bastante estudada, com a motivaÃÃo do crescente interesse e aplicabilidade em diferentes Ãreas (Web Mining, BioinformÃtica, etc.). PorÃm, os sistemas convencionais de mineraÃÃo de Ãrvores permitiam ao usuÃrio apenas definir o suporte mÃnimo como mecanismo de filtro dos padrÃes a serem minerados. ApÃs o processo de mineraÃÃo, um Ãrduo trabalho à necessÃrio para filtrar os padrÃes de interesse dos usuÃrios. Nessa dissertaÃÃo, propomos o algoritmo CobMiner, Constrained-based Miner, um algoritmo de mineraÃÃo de padrÃes arborescentes, incorporando ao processo de mineraÃÃo os AutÃmatos de Ãrvores, como mecanismo para restringir o escopo da mineraÃÃo e produzir padrÃes frequentes mais prÃximos do real interesse dos usuÃrios. Comparamos dois mÃtodos de inclusÃo das restriÃÃes do usuÃrio dentro do processo de descoberta: o primeiro à o CobMiner que incorpora o autÃmato de Ãrvore dentro do mecanismo de mineraÃÃo, o segundo à o TreeMinerPP que consiste do conhecido algoritmo de mineraÃÃo de Ãrvores, TreeMiner, seguido de uma fase de pÃs-processamento, onde os padrÃes sÃo filtrados pelo autÃmato de Ãrvore. Um grande conjunto de testes foi executado em dados sintÃticos e reais (documentos XML), o que nos permite concluir que utilizar as restriÃÃes durante a mineraÃÃo à muito mais eficiente do que filtrar os padrÃes frequentes apÃs o processo de mineraÃÃo.

ASSUNTO(S)

autÃmato de Ãrvore mineraÃÃo de documentos xml tree pattern mining xml mining mineraÃÃo de dados (computaÃÃo) descoberta de padrÃes freqÃentes mineraÃÃo na web tree automata web mining mineraÃÃo de padrÃes arborescentes mineraÃÃo de dados com restriÃÃes frequent pattern descovery constraint-based data mining ciencia da computacao

Documentos Relacionados