Avaliação experimental de métodos de desambiguação de autores em bibliotecas digitais / Experimental evaluation of methods for authors disambiguation in digital libraries

AUTOR(ES)
DATA DE PUBLICAÇÃO

2010

RESUMO

Devido a grande diversidade de fontes de dados utilizadas pela maioria das bibliotecas digitais (DLs), podem existir problemas de ambigüidade em suas bases de dados. Pensando em melhorar esse quadro, esse trabalho propõe uma heurística que busca amenizar um problema de ambigüidade de nomes de autores bastante comum em DLs chamado split citation. Esse problema ocorre quando um autor possui seu nome representado de maneiras distintas nas diferentes publicações de sua autoria. Dessa forma, cada uma dessas variações de nome, podem ser consideradas como pessoas diferentes, dividindo a produção de um determinado autor. O split citation é um problema bastante corriqueiro, pois é muito comum, por exemplo, a abreviação ou até mesmo a supressão de sobrenomes muito extensos, além de outras práticas que geram variações de um nome. Para corrigir esse inconveniente, é feita uma análise em cima das diferentes informações contidas em uma publicação para decidir a sua autoria. Com as informações extraídas dos registros das bases de dados, são feitas medidas de similaridade que, ao final do processo, servem para ordenar uma lista de publicações onde as primeiras posições devem representar as publicações relevantes do autor em questão. Essas medidas de similaridade são calculadas utilizando evidências presentes nas publicações em forma de metadados, como por exemplo, os nomes dos autores, nomes dos co-autores, títulos, veículos de publicação, etc. A heurística foi avaliada em termos de precisão e revocação com a ajuda do software chamado trec_eval, disponibilizado pela conferência TREC (Text REtrieval Conference) que apóia pesquisas na área de recuperação de informação. Esse software permite a análise da precisão do método para diferentes níveis de revocação, e com isso facilita também a comparação entre as variantes do método proposto.

ASSUNTO(S)

banco : dados disambiguation similarity biblioteca digital precision recall digital libraries split citation trec_eval

Documentos Relacionados