Uma metodologia para seleção de parâmetros em modelos de classificação de proteínas.

AUTOR(ES)
FONTE

Campinas: Embrapa Informática Agropecuária

DATA DE PUBLICAÇÃO

2011

RESUMO

Os principais desafios relacionados ao problema de classificação de enzimas em banco de dados de estruturas de proteínas são: 1) o ruído presente nos dados; 2) o grande número de variáveis; 3) o número não-balanceado de membros por classe. Para abordar esses desafios, apresenta-se uma metodologia para seleção de parâmetros, que combina recursos de matemática (ex: Transformada Discreta do Cosseno) e da estatística (ex:.g., correlação de variáveis e amostragem com reposição). A metodologia foi validada considerando-se os três principais métodos de classificação da literatura, a saber; árvore de decisão, classificação Bayesiana e redes neurais. Os experimentos demonstram que essa metodologia é simples, eficiente e alcança resultados semelhantes àqueles obtidos pelas principais técnicas para seleção de parâmetros na literatura.Termos para indexação classificação de enzimas,predição de função de proteínas, estruturas de proteínas, banco de dados de proteínas, seleção de parâmetros, métodos para classsificação de dados.

ASSUNTO(S)

bioinformática classificação de proteínas mineração de dados

Documentos Relacionados