Medida de certeza na categorização multi-rótulo de texto e sua utilização como estratégia de poda do ranking de categorias
AUTOR(ES)
Caribe Zampirolli de Souza
FONTE
IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia
DATA DE PUBLICAÇÃO
27/08/2010
RESUMO
Dado um documento de entrada, um sistema de categorização multi-rótulo de texto tipicamente computa graus de crença para as categorias de um conjunto pré-definido, ordena as categorias por grau de crença, e atribui ao documento as categorias com grau de crença superior a um determinado limiar de poda. Idealmente, o grau de crença deveria informar a probabilidade do documento de fato pertencer à categoria. Infelizmente, ainda não existem categorizadores que computam tais probabilidades e mapear graus de crença em probabilidades é um problema ainda pouco explorado na área de RI. Neste trabalho, propomos um método baseado na regra de Bayes para mapear graus de crença em medidas de certeza de categorização multi-rótulo de texto. Propomos também uma estratégia para determinar limiares de poda baseada na medida de certeza de categorização - bayesian cut (BCut) - e uma variante para BCut - position based bayesian CUT (PBCut). Avaliamos experimentalmente o impacto dos métodos propostos no desempenho de duas técnicas de categorização multi-rótulo de texto, k-vizinhos mais próximos multi-rótulo (MLkNN) e rede neural sem peso do tipo VG-RAM com correlação de dados (VG-RAM WNNCOR), no contexto da categorização de descrições de atividades econômicas de empresas brasileiras segundo a Classificação Nacional de Atividades Econômicas (CNAE). Investigamos também o impacto no desempenho de categorização multi-rótulo de texto de três métodos de poda comumente usados na literatura de RI - RCut, PCut, e SCut e uma variante de RCut - RTCut. Além disso, propomos novas variantes para PCut e SCut PCut* e SCut*, respectivamente para tratar problemas existentes nestas abordagens. Nossos resultados experimentais mostram que, usando nosso método de geração de medidas de certeza de categorização, é possível prever o quão certo está o categorizador de que as ategorias por ele preditas são de fato pertinentes para um dado documento. Nossos resultados mostram também que o uso de nossas estratégias de poda BCut e PBCut produz desempenho de categorização superior ao de todas as outras estratégias consideradas em termos de precisão
ASSUNTO(S)
multi-label text categorization ciencia da computacao categorização multi-rótulo de texto medida de certeza de categorização poda do ranking de categorias
Documentos Relacionados
- Classificação multi-rótulo hierárquica de documentos textuais
- ESTRANHAMENTO COMO ESTRATÉGIA DE TRADUÇÃO: CATEGORIZAÇÃO DO ESTRANHAMENTO NA POESIA LEMINSKIANA E A SUA RECRIAÇÃO NA LÍNGUA CHINESA
- Utilização do lúdico como estratégia na promoção de saúde bucal
- Foucault e sua utilização como referencial na produção científica em enfermagem
- Influência do tempo de utilização de máscaras cirúrgicas descartáveis na sua eficácia como barreira microbiana