Indexação automática por atribuição de artigos científicos em português da área de Ciência da Informação

AUTOR(ES)
FONTE

Transinformação

DATA DE PUBLICAÇÃO

07/02/2019

RESUMO

Resumo Propõe e avalia um processo de indexação automática por atribuição na representação de artigos escritos em português, visando a construção de uma base de dados científica na área de Ciência da Informação no Brasil. Utiliza como metodologia, a pesquisa exploratória, bibliográfica e empírica. A parte empírica envolve a realização de um experimento na forma de estudo de caso. O experimento consistiu na aplicação do processo proposto em um corpus formado por 60 artigos científicos e avaliação da qualidade na indexação automática por meio dos índices de consistência, precisão, revocação e medida F, tendo como padrão de referência as palavras-chaves dos autores. No processo proposto foram utilizados o Tesauro Brasileiro em Ciência da Informação e o software SISA. Foram obtidos resultados satisfatórios quanto a qualidade na indexação automática: índice de consistência médio de 19%, precisão média de 30%, revocação média de 37% e medida F média de 30%. Os resultados da pesquisa mostram que o Tesauro tem forte influência nos resultados de uma indexação automática por atribuição, apesar das relações de termo geral terem pouco contribuído para a qualidade na indexação automática. Também, foram apontados fatores intervenientes na indexação automática.Abstract This work proposes and evaluates a process of automatic indexing by assignment in the representation of full-text articles written in Portuguese, in the context of construction of a scientific database in the area of Information Science in Brazil. It uses the exploratory, bibliographic and empirical research as a methodology. The empirical part takes base in the accomplishment of an experiment as a case study. The experiment consists of the application of the proposed process in a corpus composed of 60 scientific articles, as well as quality assessment in automatic indexing through indexes of consistency, precision, recall, and F-measure. The gold standard was the authors’ keywords. The automatic indexing process uses the Brazilian Thesaurus of Information Science and SISA software. The satisfactory results were a consistency index average of 19%, an average precision of 30%, an average recall of 37%, and a mean F-measure of 30%. The analysis of the results shows the thesaurus has a strong influence on the results of an automatic indexing by assignment, although the general term’s relations had poor contribution on the quality of the automatic indexing. In addition, we point out intervening factors in automatic indexing.

Documentos Relacionados