Extração de expressões multipalavra em corpora técnicos / Extraction of multiword expressions in technical domains
AUTOR(ES)
Machado, André Maranhão
DATA DE PUBLICAÇÃO
2010
RESUMO
Expressões multipalavra (EMPs) são um dos obstáculos para a obtenção de sistemas de PLN mais precisos. Particularmente, a falta de cobertura de EMPs em recursos lexicais pode impactar negativamente na performance de tarefas e aplicações, levando a perda de informação ou erros de comunicação. Isso é especialmente problemático em domínios técnicos, onde uma parte significativa do vocabulário é composta de EMPs. Este trabalho tem por objetivo investigar o uso de diferentes métodos para a identificação de EMPs em corpora técnicos. São usadas diversas fontes de dados, incluindo um corpus paralelo, utilizando textos em português e inglês de um corpus de Pediatria. Examina-se como uma segunda língua pode fornecer informações relevantes para essas tarefa. Este trabalho é uma extensão dos artigos abaixo: Statistically-Driven Alignment-Based Multiword Expression Identification for Technical Domains publicado no Workshop on Multiword Expressions: Identification, Interpretation, Disambiguation and Applications. Singapura, 2009. Identification of Multiword Expressions in Technical Domains: Investigating Statistical and Alignment-based Approaches publicado no 7th Brazilian Symposium in Information and Human Language Technology. A Hybrid Approach for Multiword Expression Identification aceito para o International Conference on Computational Processing of Portuguese Language. 2010, Porto Alegre.
ASSUNTO(S)
natural language processing linguagem natural lingüística computacional multiword expressions parallel corpora ufrgs
ACESSO AO ARTIGO
http://hdl.handle.net/10183/18526Documentos Relacionados
- Indexing multiword expressions for information retrieval
- Aprimorando o tratamento de expressões multipalavras em um tradutor automatico baseado em regras
- Imitação de expressões faciais para aprendizado de emoções em robótica social
- A generic and open framework for multiword expressions treatment : from acquisition to applications
- Extração de minúcias em imagens de impressões digitais