Aprendizado supervisionado com conjuntos de dados desbalanceados

AUTOR(ES)
FONTE

Sba: Controle & Automação Sociedade Brasileira de Automatica

DATA DE PUBLICAÇÃO

2011-10

RESUMO

Algoritmos de aprendizado tradicionais induzidos por conjuntos de treinamento complexos e altamente desbalanceados têm apresentado dificuldade em diferenciar entre os grupos. A tendência é produzir modelos (ou regras) de classificação que favorecem a classe com maior probabilidade de ocorrência (majoritária), resultando em uma baixa taxa de reconhecimento para o grupo minoritário. O objetivo desse artigo é fornecer uma investigação sobre esse problema, que tem atraído o interesse de muitos pesquisadores nos últimos anos. No escopo de tarefas de classificação binária, são apresentados conceitos associados à natureza do problema de classes desbalanceadas e métricas de avaliação, incluindo os fundamentos da análise ROC (Receiver Operating Characteristic); além do estado da arte das soluções propostas na literatura. Uma breve discussão a respeito de como os tópicos abordados no artigo podem ser estendidos para o aprendizado multiclasse é também fornecida.

ASSUNTO(S)

classes desbalanceadas aprendizado supervisionado métricas de avaliação análise roc métodos de reamostragem abordagem sensível ao custo

Documentos Relacionados