Extração automática de definições : um estudo de caso em textos legislativos
AUTOR(ES)
Augusto Herrmann Batista
FONTE
IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia
DATA DE PUBLICAÇÃO
16/12/2011
RESUMO
Neste trabalho, é apresentada uma variação de uma técnica para o processamento automatizado de linguagem natural de textos em língua portuguesa, visando a construção de um glossário a partir de textos de um domínio que contenham definições em meio ao seu conteúdo. Apresentamse os resultados de um estudo de caso a partir de um corpus da área de Direito das Telecomunicações. Seguiu-se a cadeia usual de processamento de linguagem natural: préprocessamento, segmentação e classificação morfossintática. Especificase, então, um conjunto de funções extratoras de características relevantes à tarefa de extração de definições. Seus pesos associados, por sua vez, são determinados por aprendizagem de máquina sobre um corpus de treino que é parte do glossário de referência. Por fim, definições são extraídas a partir do texto e avaliadas com base no corpus de teste, que também é parte do glossário de referência. Os resultados são discutidos com relação a outras técnicas de extração de definições.
ASSUNTO(S)
indexação processamento de linguagem natural (computação) gestão do conhecimento natural language processing ciência da informação ciencia da informacao information extraction definition extraction análise de conteúdo (comunicação)
ACESSO AO ARTIGO
http://www.bdtd.ucb.br/tede/tde_busca/arquivo.php?codArquivo=1582Documentos Relacionados
- Extração automática de conceitos a partir de textos em língua portuguesa
- Um estudo comparativo de modelos baseados em estatísticas textuais, grafos e aprendizado de máquina para sumarização automática de textos em português
- Abordagens para avaliação automática de conferências científicas: um estudo de caso em ciência da computação
- De inusitatis praepositionisbus : um estudo das preposições essenciais em textos lexicográficos
- Extração automatica de feições rodoviáris em imagens digitais