Alinhamento de árvores sintáticas português-inglês
AUTOR(ES)
Josué Garcia de Araújo
FONTE
IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia
DATA DE PUBLICAÇÃO
20/06/2011
RESUMO
A tradução manual de uma língua natural fonte para uma língua natural alvo é uma tarefa que demanda tempo e conhecimento. Para reduzir o trabalho árduo necessário na construção manual de traduções, propõe-se realizar esta tarefa por meio de sistemas computacionais de Tradução Automática (TA). Desde a década de 1940, várias técnicas e abordagens de TA têm sido propostas, investigadas e avaliadas com o intuito de melhorar a qualidade das traduções geradas automaticamente. No momento, os métodos de tradução automática estatística são considerados o estado-da-arte em termos de medidas automáticas de avaliação comumente utilizadas na área (como BLEU e NIST), porém há uma tendência recente de que tais sistemas não conseguirão sair do patamar de desempenho no qual se encontram estagnados sem a aplicação de conhecimento linguístico mais aprofundado, por exemplo, informação sintática. Nesse sentido, como uma tentativa de auxiliar o processo de construção de tradutores automáticos, este documento apresenta a investigação, implementação e avaliação de técnicas de alinhamento de árvores sintáticas. A ferramenta computacional para alinhamento automático de árvores sintáticas resultante deste trabalho pode ser utilizada para a geração de um recurso extremamente útil para diversas técnicas de TA: as árvores sintáticas alinhadas. Esse recurso, até então inexistente para o português do Brasil, possibilitará o desenvolvimento de pesquisas inovadoras e que propiciem o avanço científico da área. Neste documento, um estudo de várias técnicas de alinhamento de árvores sintáticas é apresentado, baseado na literatura. O pre-processamento de um corpus para inserção de informações sintáticas a partir das quais o alinhamento é realizado também é descrito, destacando-se as fases de alinhamento lexical e análise sintática. A partir do embasamento teórico derivado do estudo das técnicas propostas na literatura, cinco modelos foram implementados para realizar a tarefa de alinhar as árvores sintáticas. Estes modelos foram avaliados usando o corpus pré-processado. Com base nos resultados da avaliação intrínseca do alinhamento propriamente dito, é possível concluir que o alinhamento de árvores sintáticas atingiu cerca de 97,36% de precisão e 93,48% de cobertura em pares de árvores representando sentenças paralelas em português do Brasil e inglês usando diferentes configurações. A partir desses resultados promissores pretende-se aplicar a ferramenta a um corpus maior de árvores sintáticas paralelas visando a obtenção de mais exemplos de tradução e permitindo, assim, sua aplicação nas técnicas de tradução automática baseada em sintaxe como os métodos estatísticos baseados em sintaxe ou a tradução orientada a dados.
ASSUNTO(S)
processamento da linguagem natural (computação) linguística - processamento de dados inteligência artificial ciencia da computacao
ACESSO AO ARTIGO
http://www.bdtd.ufscar.br/htdocs/tedeSimplificado//tde_busca/arquivo.php?codArquivo=4593Documentos Relacionados
- Dicionário bilíngue pedagógico português-inglês : um novo parâmetro para a elaboração de informações gramaticais
- "Alinhamento sentencial de textos paralelos português-inglês"
- Proposta para um tratamento das relações de equivalência na microestrutura do dicionário bilíngüe português-inglês para o tradutor brasileiro
- A fraseologia do futebol: um estudo bilingue português-inglês direcionado pelo corpus
- Tradução e lexicografia jurídicas no Brasil: análise de dois dicionários jurídicos português-inglês brasileiros, considerando as peculiaridades e os condicionantes culturais dos diferentes sistemas e linguagens jurídicas