Extração automática de definições : um estudo de caso em textos legislativos

Augusto Herrmann Batista

Extração automática de definições : um estudo de caso em textos legislativos

AUTOR(ES)

Augusto Herrmann Batista

FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

16/12/2011

RESUMO

Neste trabalho, é apresentada uma variação de uma técnica para o processamento automatizado de linguagem natural de textos em língua portuguesa, visando a construção de um glossário a partir de textos de um domínio que contenham definições em meio ao seu conteúdo. Apresentamse os resultados de um estudo de caso a partir de um corpus da área de Direito das Telecomunicações. Seguiu-se a cadeia usual de processamento de linguagem natural: préprocessamento, segmentação e classificação morfossintática. Especificase, então, um conjunto de funções extratoras de características relevantes à tarefa de extração de definições. Seus pesos associados, por sua vez, são determinados por aprendizagem de máquina sobre um corpus de treino que é parte do glossário de referência. Por fim, definições são extraídas a partir do texto e avaliadas com base no corpus de teste, que também é parte do glossário de referência. Os resultados são discutidos com relação a outras técnicas de extração de definições.

ASSUNTO(S)

indexação processamento de linguagem natural (computação) gestão do conhecimento natural language processing ciência da informação ciencia da informacao information extraction definition extraction análise de conteúdo (comunicação)

ACESSO AO ARTIGO

http://www.bdtd.ucb.br/tede/tde_busca/arquivo.php?codArquivo=1582