Uso de Seleção de Características da Wikipedia na Classificaçao Automatica de Textos / Selection of Wikipedia features for automatic text classification

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

13/04/2012

RESUMO

Os metodos tradicionais de classicac~ao de textos normalmente representam documentos apenas como um conjunto de palavras, tambem conhecido como BOW (do ingl^es, Bag of Words). Varios estudos t^em mostrado bons resultados ao utilizar-se de tesauros e enciclopedias como fontes externas de informac~oes, objetivando expandir a representac~ao BOW a partir da identicac~ao de relacionamentos de sinonmia e hiponmia entre os termos presentes em uma colec~ao de documentos. Todavia, o processo de expans~ao pode introduzir termos que conduzam a uma classicac~ao err^onea do documento. No presente trabalho, prop~oe-se a aplicac~ao de medidas de avaliac~ao de termos para a selec~ao de caractersticas extradas da Wikipedia, com o objetivo de melhorar a ecacia de sua utilizac~ao durante o processo de expans~ao de documentos. O estudo tambem prop~oe uma medida de selec~ao de caractersticas denominada Fator de Tend^encia a uma Categoria (FT1C), de modo que os experimentos realizados demonstraram que esta medida apresenta desempenho competitivo com as medidas Information Gain, Gain Ratio e Chi-squared, neste processo, apresentando os melhores ganhos de microF1 e macroF1, na maioria dos experimentos realizados. O uso integral das caractersticas selecionadas neste processo, demonstrou auxiliar a classicac~ao de forma mais estavel, ao passo que apresentou menor desempenho ao se restringir sua inserc~ao somente aos documentos das classes em que estas caracter sticas s~ao bem pontuadas pelas medidas de selec~ao. Ao ser aplicada nas colec~oes Reuters-21578, Ohsumed rst-20000 e 20Newsgroups, a abordagem com selec~ao de caractersticas permitiu a reduc~ao da inserc~ao de rudos inerentes do processo de expans~ao e potencializou o uso de hip^onimos, assim como demonstrou que as rela c~oes de sinonmia da Wikipedia tambem podem ser utilizadas na expans~ao de documentos, elevando a ecacia da classicac~ao automatica de textos.

ASSUNTO(S)

recuperaçao de informaçao classificaçao de textos seleçao de caracteristicas expansao de documentos aprendizado de maquina. ciencia da computacao information retrieval text classification feature selection document expansion machine learning.

Documentos Relacionados