Classificação automática de páginas Web Multi-label via MDL e Support Vector Machines
AUTOR(ES)
Rodrigo de La Rocque Ormonde
DATA DE PUBLICAÇÃO
2009
RESUMO
Nesta pesquisa é feita a extensão de um novo algoritmo de classificação, chamado de CAH+MDL, anteriormente desenvolvido para lidar apenas com problemas de classificação binários ou multiclasse, para tratar diretamente também problemas de classificação multilabel. Foi estudado então seu desempenho para a classificação de uma base de páginas Web em Português e Inglês, divididas em sete categorias multi-label. Este algoritmo é baseado no princípio da Minimum Description Length (MDL), utilizado juntamente com a Codificação Adaptativa de Huffman e foi anteriormente estudado para a classificação binária na detecção de SPAM, tendo apresentado bons resultados. Não foram encontradas citações na literatura, entretanto, de sua utilização para o caso multi-label, que é bem mais complexo. Para avaliar seu desempenho, os resultados são comparados com os resultados obtidos na classificação da mesma base de dados por uma SVM linear, que é o algoritmo que normalmente apresenta os melhores resultados na classificação de padrões e, especialmente, na classificação de textos.
ASSUNTO(S)
classificação multi-label ciencia da computacao mdl classificação de páginas web svm codificação de huffman
Documentos Relacionados
- Learning classifier system for multi-label classification
- Abordagens para aprendizado semissupervisionado multirrótulo e hierárquico
- Seleção de componentes em ensembles de clasificadores multirrótulo
- Support vector machines na classificação de imagens hiperespectrais
- Support vector machines, inferencia transdutiva e o problema de classificação