Segmentação de corpora de textos

AUTOR(ES)
FONTE

DELTA: Documentação de Estudos em Lingüística Teórica e Aplicada

DATA DE PUBLICAÇÃO

2002

RESUMO

O objetivo da pesquisa apresentada é relatar um método baseado em corpus para análise de discurso que se baseia na noção de segmentação, isto é, a divisão de textos em porções coesas. Para os propósitos desse estudo, um segmento é definido como uma porção contígua de texto que consiste em pelo menos sentenças. O procedimento de segmentação desenvolvido para a pesquisa chama-se LSM ('link set median') e se baseia na identificação da repetição lexical nos textos. Os dados analisados foram três corpora de 100 textos cada. Cada corpus representava um gênero específico: artigos de pesquisa, relatórios anuais de negócio e artigos de enciclopédia. O tamanho total do corpus é 1.262.710 palavras. A segmentação por LSM foi comparada à divisão interna em seções de cada texto. A seguir, os resultados do procedimento LSM foram comparados a uma segmentação feita aleatoriamente. Os resultados indicaram que o procedimento LSM funcionou melhor do que o método aleatório, o que sugere que a repetição lexical responde em parte pela maneira pela qual os textos segmentam-se em seções.

ASSUNTO(S)

lingüística de corpus análise de discurso segmentação coesão lexical repetição

Documentos Relacionados