Extração de expressões multipalavra em corpora técnicos / Extraction of multiword expressions in technical domains

AUTOR(ES)
DATA DE PUBLICAÇÃO

2010

RESUMO

Expressões multipalavra (EMPs) são um dos obstáculos para a obtenção de sistemas de PLN mais precisos. Particularmente, a falta de cobertura de EMPs em recursos lexicais pode impactar negativamente na performance de tarefas e aplicações, levando a perda de informação ou erros de comunicação. Isso é especialmente problemático em domínios técnicos, onde uma parte significativa do vocabulário é composta de EMPs. Este trabalho tem por objetivo investigar o uso de diferentes métodos para a identificação de EMPs em corpora técnicos. São usadas diversas fontes de dados, incluindo um corpus paralelo, utilizando textos em português e inglês de um corpus de Pediatria. Examina-se como uma segunda língua pode fornecer informações relevantes para essas tarefa. Este trabalho é uma extensão dos artigos abaixo: Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains publicado no Workshop on Multiword Expressions: Identification, Interpretation, Disambiguation and Applications. Singapura, 2009. Identification of Multiword Expressions in Technical Domains: Investigating Statistical and Alignment-based Approaches publicado no 7th Brazilian Symposium in Information and Human Language Technology. A Hybrid Approach for Multiword Expression Identification aceito para o International Conference on Computational Processing of Portuguese Language. 2010, Porto Alegre.

ASSUNTO(S)

natural language processing linguagem natural lingüística computacional multiword expressions parallel corpora ufrgs

Documentos Relacionados