Extração automática de conceitos a partir de textos em língua portuguesa

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

26/01/2012

RESUMO

Essa tese descreve um processo para extrair conceitos de textos em língua portuguesa. O processo proposto inicia com corpora de domínio linguisticamente anotados, e gera listas de conceitos dos domínios de cada corpus. Utiliza-se uma abordagem linguística, que baseia-se na identificação de sintagmas nominais e um conjunto de heurísticas que melhoram a qualidade da extração de candidatos a conceitos. Essa melhora é expressa por incrementos aproximadamente de 10% para mais de 60% nos valores de precisão e abrangência das listas de termos extraídas. Propõe-se um novo índice (tf-dcf) baseado na comparação com corpora contrastantes, para ordenar os termos candidatos a conceito extraídos de acordo com suas relevâncias para o corpus de domínio. Os resultados obtidos com esse novo índice são superiores aos resultados obtidos com índices propostos em trabalhos similares. Aplicam-se pontos de corte para identificar, dentre os termos candidatos classificados segundo sua relevância, quais serão considerados conceitos. O uso de uma abordagem híbrida para escolha de pontos de corte fornece valores adequados de medida F, trazendo qualidade ao processo de identificação de conceitos. Adicionalmente. propõem-se quatro aplicações para facilitar a compreensão, manipulação e visualização dos termos e conceitos extraídos. Essas aplicações tornam as contribuições dessa tese acessíveis a um maior número de pesquisadores e usuários da área de Processamento de Linguagem Natural. Todo o processo proposto é descrito em detalhe, e experimentos avaliam empiricamente cada passo. Além das contribuições científicas feitas com a proposta do processo, essa tese também apresenta listas de conceitos extraídos para cinco diferentes corpora de domínio, e o protótipo de numa ferramenta de software (EXATOLP) que implementa todos os passos propostos.

ASSUNTO(S)

informÁtica ontologia processamento da linguagem natural recuperaÇÃo da informaÇÃo ciencia da computacao

Documentos Relacionados