Novos critérios para seleção de modelos neurais em problemas de classificação com dados desbalanceados

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

31/10/2011

RESUMO

Redes Neurais Artificiais induzidas por conjuntos de treinamento complexos e altamente desbalanceados tendem a produzir modelos de classificação que favorecem a classe com maior probabilidade de ocorrência (majoritária). Embora na literatura existam soluções propostas para esse problema, apenas uma quantidade limitada de trabalhos tem investigado as suas causas e/ou proposto algum tipo de formalismo. Nesse trabalho, uma análise de cunho formal sobre a natureza do problema de classes desbalanceadas é descrita com base nas teorias de Decisão Bayesiana e Aprendizado Estatístico. É demonstrado que o problema surge como uma consequência direta da minimização de um critério baseado no Erro global, tendo como principal atenuante o nível de sobreposição (ruído) das distribuições. Adicionalmente, são desenvolvidos dois novos algoritmos de aprendizado para a topologia MultiLayer Perceptron: WEMLP e AUCMLP. Ambos são projetados a partir de critérios específicos para seleção de modelos, os quais são diferentes do Erro global. A função custo proposta para o algoritmo WEMLP utiliza um parâmetro para distinguir as perdas associadas a cada classe. O algoritmo AUCMLP otimiza uma aproximação diferenciável da estatística de Wilcoxon-Mann-Whitney. Extensões Multiobjetivo (MOBJ) para as formulações de WEMLP e AUCMLP são também propostas, com o propósito de se incorporar uma estratégia efetiva para o controle de complexidade (flexibilidade) de modelos. Testes estatísticos aplicados aos resultados empíricos obtidos com dados reais mostram a eficiência de nossa abordagem em melhorar o ranking de classificação e também, em obter taxas de acerto elevadas e equilibradas para ambas as classes.

ASSUNTO(S)

engenharia elétrica teses.

Documentos Relacionados