Análise de expressões referenciais em corpus anotado da língua portuguesa

AUTOR(ES)
DATA DE PUBLICAÇÃO

2005

RESUMO

A análise de expressões referenciais é fundamental na interpretação do discurso. A identificação de expressões correferentes é importante em diversas aplicações de Processamento da Linguagem Natural. Expressões referenciais podem ser usadas para introduzir entidades em um discurso ou podem fazer referência a entidades já mencionadas, podendo fazer uso de redução lexical, como em: O Eurocenter oferece cursos de Japonês na bela cidade de Kanazawa. Os cursos têm quatro semanas de duração. Onde cursos de Japonês introduz uma nova entidade e os cursos retomam essa entidade. A resolução de correferência é o processo de identificar as expressões que se referem à mesma entidade no discurso. As expressões referenciais são analisadas e a existência de um antecedente textual é verificada. Aquelas que introduzem novos elementos, chamamos novas no discurso. Esta dissertação apresenta um estudo das características de um tipo específico de expressões referenciais (descrições definidas) com o objetivo de identificar automaticamente expressões novas no discurso em textos da Língua Portuguesa. Este estudo é importante, pois o número de expressões sem antecedentes textuais no discurso tanto na Língua Inglesa como na Língua Portuguesa é expressivo. O estudo das características baseou-se na literatura e em um estudo de corpus. A partir destas características foi construída uma base de dados para o aprendizado automático de árvores de decisão. Os melhores resultados da classificação das descrições definidas foram implementados no ambiente ART. Uma análise dos atributos foi desenvolvida para calcular o potencial de distinção de cada um, destacando-se o atributo tamanho (número de palavras do sintagma nominal) por ser um atributo original e significativo nos experimentos e o atributo sem antecedente (núcleo da descrição definida é uma palavra que não ocorre anteriormente no texto) por ter um impacto positivo nos resultados. As árvores de decisão geradas foram avaliadas em um novo corpus, composto por textos extraídos do jornal português Público. Obtivemos 77% de F-measure para a identificação de expressões novas no discurso

ASSUNTO(S)

inteligência artificial expressões referenciais aprendizado de máquina resolução de correferência classificação automática de expressões resolução de anáforas ciencia da computacao referenciais

Documentos Relacionados