Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas

AUTOR(ES)
DATA DE PUBLICAÇÃO

2008

RESUMO

Neste trabalho, é proposto um método de agrupamento hierárquico baseado em heurísticas (HHC) para tratar o problema de resolução de ambigüidades entre nomes de autores de uma coleção de citações bibliográficas. O método sucessivamente funde grupos de citações de autores com nomes compatíveis baseando-se em várias herísticas que exploram os componentes das citações (nomes de co-autores, título, local de publicação). Em cada fase do agrupamento, a informação dos grupos fundidos é agregada (todas as palavras que formam os títulos e veículos de publicações das citações contidas nos grupos são agrupadas), fornecendo maior informação para a próxima iteração de fusão. Experimentos feitos com uma coleção de teste extraída da coleção da DBLP mostram ganhos acima de 12% sobre um método anterior que utiliza o mesmo algoritmo de identi ficação de padrões na resolução de ambigüidades entre nomes (Oliveira, 2005) mas não utiliza agrupamento hierárquico. Comparado a uma estratégia supervisionada baseada no classificador SVM, nosso trabalho a supera em 21%. Em relação uma estratégia baseada na utilização de um algoritmo de agrupamento não-supervisionado(K-Means), o ganho é de 15,5%. As duas linhas de base utilizam as mesmas evidências consideradas pelo nosso método e informação privilegiada sobre o número correto de grupos. Isto é, ambas requerem que o número correto de autores seja conhecido a priori, o que é inviável para coleções de citações muito grandes, como acontece em bibliotecas digitais reais.

ASSUNTO(S)

computação teses. bibliotecas digitais teses. recuperação de informação teses.

Documentos Relacionados