Tipologia de traços linguísticos de textos do português do Brasil dos séculos XVI, XVII, XVIII e XIX: uma proposta para a classificação automática de gêneros textuais
AUTOR(ES)
Jacqueline Aparecida de Souza
DATA DE PUBLICAÇÃO
2010
RESUMO
Com base nos postulados metodológicos da Linguística de Corpus e nos conceitos de gênero, propostos por Swales (1990) e Biber (1995), esta pesquisa pretende descrever traços linguísticos característicos de textos históricos, correlacionando-os a seus respectivos gêneros, e propor uma tipologia de traços de forma que seja possível identificar o gênero de cada texto automaticamente. Para execução da pesquisa foi utilizado o corpus do português dos séculos XVI, XVII e XVIII do projeto Dicionário Histórico do Português do Brasil (programa Institutos do Milênio/CNPq UNESP/Araraquara), constituído por 2.459 textos e 7.5 milhões de palavras. Para realizar uma descrição histórica, partiu-se de características sincrônicas obtidas a partir da tabela de traços contemporâneos elaborada por Aires (2005). No que tange à manipulação do corpus, utilizou-se o Philologic, o Unitex e desenvolveu-se uma ferramenta para extração e quantificação dos traços. Para fins de classificação, foram utilizados os algoritmos disponibilizados no Weka (Waikato Environment for Knowledge Analysis), tais como: Naive Bayes, Bayes Net, SMO, Multilayer Perceptron e RBFNetwork, J48, NBTree. A descrição foi realizada com base em 62 traços, os quais abarcam estatísticas baseadas no texto como um todo e em palavras, incluindo as classes de verbos, pronomes, advérbios, como também marcadores discursivos, expressões e unidades lexicais. Concluiu-se que os gêneros compartilham características linguísticas específicas, porém, também apresentam seus padrões próprios, como o uso de determinadas expressões e a frequência de unidades lexicais. Apesar das limitações e complicações em utilizar um corpus histórico, o desempenho dos classificadores com base nos traços levantados foi satisfatório, com a taxa de acerto 84% e 92% de classificação correta.
ASSUNTO(S)
linguistica aprendizado de computador corpus histórico linguística linguística de corpus traços lingüísticos gêneros textuais classificação automática corpus linguistics features textual genre automatic classification
ACESSO AO ARTIGO
http://www.bdtd.ufscar.br/htdocs/tedeSimplificado//tde_busca/arquivo.php?codArquivo=3852Documentos Relacionados
- A demografia atlântica dos africanos no Rio de Janeiro, séculos XVII, XVIII e XIX: algumas configurações a partir dos registros eclesiásticos
- Caracterização mineralógica de azulejos de Salvador e Belém dos séculos XVI, XVII e XIX
- Mentalidade possessória e práticas rentistas dos jesuítas (América portuguesa, séculos XVI, XVII e XVIII)
- O mundo americano na produção escrita inglesa: séculos XVI, XVII e XVIII
- O mosteiro de São Bento de Sorocaba e a arquitetura beneditina do litoral brasileiro e do planalto paulista nos seculos XVII, XVIII e XIX