Uma abordagem baseada na web para resolução de entidades e criação de aquivos de autoridade

AUTOR(ES)
DATA DE PUBLICAÇÃO

2009

RESUMO

Repositórios de dados na Web normalmente contêm referências para milhares de entidades do mundo real, originadas de múltiplas fontes. Não é incomum que múltiplas entidades compartilhem um mesmo rótulo (homônimos) e que variações distintas de rótulos sejam associadas a uma mesma entidade (sinônimos), o que frequentemente conduz a interpretações ambíguas. E ainda, variações e erros de grafias, siglas e formas abreviadas contribuem para tornar o problema ainda mais difícil. Resolver este problema requer identificar quais rótulos correspondem a uma mesma entidade do mundo real, um processo conhecido com resolução de entidades. Uma abordagem para resolver o problema é selecionar um identificador de autoridade para cada entidade, bem como uma lista das suas formas variantes --- uma estrutura de dados conhecida como arquivo de autoridade. Neste trabalho, nós propomos um novo método de gerar arquivos de autoridade baseado em informações disponíveis na Web. O método consiste em coletar informações sobre as referências a entidades, submetê-las como consultas a uma máquina de busca, analisar o conjunto resultado e extrair informações para desambiguar as referências a entidades. Experimentos sobre três bases de dados distintas sugerem que nosso método supera métodos de referência, alcançando ganhos de até 125% na métrica pairwise F1.

ASSUNTO(S)

catalogo de autoridade (catalogação) teses. sistemas de recuperação da informação teses. recuperação de informação teses. computação teses.

Documentos Relacionados