Aplicação de técnicas de aprendizado de máquina no reconhecimento de classes estruturais de proteínas

AUTOR(ES)
DATA DE PUBLICAÇÃO

2005

RESUMO

Atualmente, a classificação estrutural de proteínas, que diz respeito à inferência de padrões em sua conformação 3D, é um dos principais problemas em aberto da Biologia Molecular. Esse problema vem recebendo a atenção de muitos pesquisadores na área de Bioinformática pelo fato de as funções das proteínas estarem intrinsecamente relacionadas às suas diferentes conformações espaciais, que são de difícil obtenção experimental em laboratório. Considerando a grande diferença entre o número de seqüências de proteínas conhecidas e o número de estruturas tridimensionais determinadas experimentalmente, é alta a demanda por técnicas automatizadas de classificação estrutural de proteínas. Nesse contexto, as ferramentas computacionais, principalmente as técnicas de Aprendizado de Máquina (AM), tornaram-se alternativas essenciais para tratar esse problema. Neste trabalho, técnicas de AM são empregadas no reconhecimento de classes estruturais de proteínas: Árvore de Decisão, k-Vizinhos Mais Próximos, Naïve Bayes, Máquinas de Vetores Suporte e Redes Neurais Artificiais. Esses métodos foram escolhidos por representarem diferentes paradigmas de aprendizado e serem bastante citados na literatura. Visando conseguir uma melhoria de desempenho na solução do problema abordado, sistemas de multiclassificação homogênea (Bagging e Boosting) e heterogênea (Voting, Stacking e StackingC) são aplicados nesta pesquisa, usando como base as técnicas de AM anteriormente mencionadas. Além disso, pelo fato de a base de dados de proteínas considerada neste trabalho apresentar o problema de classes desbalanceadas, técnicas artificiais de balanceamento de classes (Under-sampling Aleatório, Tomek Links, CNN, NCL e OSS) são utilizadas a fim de minimizar esse problema e melhorar o desempenho dos classificadores. Para a avaliação dos métodos de AM, um procedimento de validação cruzada é empregado, em que a acurácia dos classificadores é medida através das médias da taxa de classificação incorreta nos conjuntos de testes independentes. Essas médias são comparadas duas a duas pelo teste de hipótese a fim de avaliar se há diferença estatisticamente significativa entre elas. Com os resultados obtidos, pode-se observar, entre os classificadores base, o desempenho superior do método Máquinas de Vetores Suporte. Os sistemas de multiclassificação (homogênea e heterogênea), por sua vez, apresentaram, em geral, uma acurácia superior ou similar a dos classificadores usados como base, destacando-se o Boosting que usou Árvore de Decisão em sua formação e o StackingC tendo como meta classificador a Regressão Linear. O método Voting, apesar de sua simplicidade, também mostrou-se adequado para a solução do problema considerado nesta dissertação. Em relação às técnicas de balanceamento de classes, não foram alcançados melhores resultados de classificação global com as bases de dados obtidas com a aplicação de tais técnicas. No entanto, foi possível uma melhor classificação específica da classe minoritária, de difícil aprendizado. A técnica NCL foi a que se mostrou mais apropriada ao balanceamento de classes da base de dados de proteínas

ASSUNTO(S)

sistemas de multiclassificação balanceamento de classes multi-classification systems bioinformática bioinformatic protein structural classes classes estruturais de proteínas engenharia eletrica class balance

Documentos Relacionados