Uso de informações lingüísticas na etapa de pré - processamento em mineração de textos
AUTOR(ES)
Cassiana Fagundes da Silva
DATA DE PUBLICAÇÃO
2004
RESUMO
Este trabalho apresenta estudos, com realização de experimentos e análise de resultados, da aplicação de informações lingüísticas na etapa de pré-processamento no processo de Mineração de Textos para as tarefas de Categorização e Agrupamento de Documentos. Usualmente, o pré-processamento utilizado no processo de Mineração de Textos para estas tarefas consiste na remoção de termos irrelevantes (tais como, preposição, artigos, pronomes, entre outros), normalização morfológica e seleção dos termos (ao que denominamos baseado em métodos usuais). Propõe-se, ao longo deste trabalho, um pré-processamento que faz o uso de informações lingüísticas, ou seja, um préprocessamento baseado em combinações gramaticais, visando avaliar a repercussão do uso dessas informações nos resultados de tarefas de Mineração de Textos. Foram realizados diversos experimentos para a validação da abordagem proposta junto à língua portuguesa. O corpus utilizado nos experimentos consiste de um extrato do corpus NILC (Núcleo Interinstitucional de Lingüística Computacional), formado por textos jornalísticos do ano de 1994 das seções: Esporte, Imóveis, Informática, Política e Turismo, escritos em português do Brasil. Experimentos com as combinações gramaticais: substantivos; substantivosadjetivos; substantivos-nomespróprios; substantivos-nomespróprios-adjetivos; e finalmente nomespróprios-adjetivos são descritos. A análise dos resultados é detalhada, apresentando comparações entre os resultados obtidos a partir do pré-processamento usual e os resultados obtidos a partir da seleção por combinações gramaticais aqui proposta. Com o resultado dos experimentos, pode-se verificar que o uso de informações lingüísticas na etapa de pré-processamento apresentou melhorias em ambas tarefas de categorização e agrupamento de textos. Para os experimentos de categorização a menor taxa de erro (18,01%) foi obtida através da seleção de substantivos-nomespróprios para o aprendizado simbólico. Para os experimentos de agrupamento o uso de informações lingüísticas possibilitou a identificação de um maior numero de grupos.
ASSUNTO(S)
computação informações linguísticas ciencia da computacao linguística mineração de textos categorização e agrupamento de texto mineração de textos
ACESSO AO ARTIGO
http://bdtd.unisinos.br/tde_busca/arquivo.php?codArquivo=2Documentos Relacionados
- Precisão no processo de busca e recuperação da informação: uso da mineração de textos
- UMA ABORDAGEM DE PRÉ-PROCESSAMENTO AUTOMÁTICO PARA MINERAÇÃO DE TEXTOS EM PORTUGUÊS: SOB O ENFOQUE DA INTELIGENCIA COMPUTACIONAL
- USO DE TEORIAS NO CAMPO DE SISTEMAS DE INFORMAÇÃO: MAPEAMENTO USANDO TÉCNICAS DE MINERAÇÃO DE TEXTOS
- Gestão de informações na etapa de projeto visando a eficiência energética de obras aeroportuárias
- Mineração de textos biomédicos: uma revisão bibliométrica