Uso de sintagmas nominais na classificação automática de documentos eletrônicos
AUTOR(ES)
Luiz Claudio Gomes Maia
DATA DE PUBLICAÇÃO
2008
RESUMO
This research work presents a proposal for the classification of electronic documents using techniques and algorithms based on natural language processing and noun phrases indexing along with plain keywords. Two tools, OGMA and Weka, were used for the experiments proposed. OGMA was developed by the author to automate the extraction of noun phrases and to perform the calculation of the weight of each term in the process of document indexing for each of the six proposed methods. The WEKA was used to analyze the OGMA results using the algorithms of clustering and classification "Simplekmeans" and "NaiveBayes", respectively. This process resulted in a percentage value indicating how many documents were classified correctly. The best performing methods were those with the terms without stopwords and the classified and scored noun phrases.
ASSUNTO(S)
processamento da linguagem natural (computação). teses indexação automatica. teses sistemas de recuperação da informação teses ciência da informação teses.
ACESSO AO ARTIGO
http://hdl.handle.net/1843/ECID-7NXJKZDocumentos Relacionados
- Uso de sintagmas nominais na classificação automática de documentos eletrônicos
- Uso de sintagmas nominais na classificação automática de documentos eletrônicos
- Classificação automática de documentos jornalísticos na Internet
- O uso de documentos eletrônicos na contabilidade
- Uso de tecnicas de classificação automatica na analise ambiental