Abordagens evolucionárias para problemas relacionados a integração de dados

AUTOR(ES)
DATA DE PUBLICAÇÃO

2009

RESUMO

Integração de dados tem como objetivo combinar dados de diferentes fontes (repositórios de dados tais como bibliotecas digitais e bancos de dados) por meio da adoção de um modelo de dados global e da detecção e resolução de problemas de conflito de esquemas e entre os dados armazenados, de modo a prover uma percepção/visão unificada ao usuário. Dois problemas específicos relacionados ao processo de integração de dados - deduplicação de registros e pareamento de esquemas - apresentam espaços de soluções muito vastos. Por esse motivo, explorar esses espaços da forma tradicional torna-se uma alternativa computacionalmente cara e tecnicamente inviável para se encontrar soluções. Além disso, as soluções para estes problemas exigem que objetivos múltiplos (e às vezes conflitantes) sejam atendidos simultaneamente. O objetivo desta tese é apresentar abordagens evolucionárias, como a programação genética, como ferramentas para solucionar tais problemas, levando a novas abordagens e métodos capazes de atender a todas essas exigências e ao mesmo tempo, prover soluções de alta eficiência e eficácia. O primeiro trabalho apresentado nesta tese propõe uma abordagem, baseada em programação genética, para deduplicação de registros. Essa abordagem combina diferentes evidências extraídas dos dados armazenados para sugerir funções de deduplicação capazes de identificar quando dois registros são réplicas ou não. Como demonstrado pelos experimentos realizados, nossa abordagem consegue superar métodos na literatura até então considerados como o estado-da-arte. Além disso, as funções de deduplicação sugeridas são eficientes, exigindo menos processamento, pois utilizam menos evidências. Finalmente, essa abordagem evolucionária é capaz de adaptar automaticamente as funções de deduplicação a qualquer valor de limiar de identificação de réplicas, poupando o usuário do trabalho de escolher e ajustar o valor desse parâmetro. A partir dos resultados obtidos pela abordagem anterior, também é proposta uma abordagem evolucionária para o problema de encontrar casamentos entre elementos de esquemas de repositórios de dados semanticamente relacionados (problema de pareamento de esquemas). O objetivo do nosso trabalho foi desenvolver uma abordagem capaz de encontrar casamentos de esquemas em uma situação adversa na qual informações sobre a estrutura do repositório não estão disponíveis. Esta abordagem é pioneira na tarefa de encontrar casamentos complexos usando somente os dados armazenados nos repositórios. Para encontrar casamentos complexos são utilizadas estratégias de busca, baseadas em técnicas de deduplicação de registros e de recuperação de informação, durante o processo evolucionário. Para demonstrar a eficácia de nossa abordagem, conduzimos uma avaliação experimental usando conjuntos de dados reais e sintéticos. Os resultados demonstram que a abordagem proposta é capaz de identificar casamentos complexos com grande precisão, apesar de fazer uso somente dos dados armazenados

ASSUNTO(S)

programação (computadores). programação genética (computação computação teses.

Documentos Relacionados