Uma metodologia para seleção de parâmetros em modelos de classificação de proteínas.
AUTOR(ES)
OLIVEIRA, S. R. de M.
FONTE
Campinas: Embrapa Informática Agropecuária
DATA DE PUBLICAÇÃO
2011
RESUMO
Os principais desafios relacionados ao problema de classificação de enzimas em banco de dados de estruturas de proteínas são: 1) o ruído presente nos dados; 2) o grande número de variáveis; 3) o número não-balanceado de membros por classe. Para abordar esses desafios, apresenta-se uma metodologia para seleção de parâmetros, que combina recursos de matemática (ex: Transformada Discreta do Cosseno) e da estatística (ex:.g., correlação de variáveis e amostragem com reposição). A metodologia foi validada considerando-se os três principais métodos de classificação da literatura, a saber; árvore de decisão, classificação Bayesiana e redes neurais. Os experimentos demonstram que essa metodologia é simples, eficiente e alcança resultados semelhantes àqueles obtidos pelas principais técnicas para seleção de parâmetros na literatura.Termos para indexação classificação de enzimas,predição de função de proteínas, estruturas de proteínas, banco de dados de proteínas, seleção de parâmetros, métodos para classsificação de dados.
ASSUNTO(S)
bioinformática classificação de proteínas mineração de dados
ACESSO AO ARTIGO
http://www.infoteca.cnptia.embrapa.br/handle/doc/2836Documentos Relacionados
- Reconhecimento de padrões de pontes de hidrogênio ? preliminares do desenvolvimento de uma metodologia baseada em TI para a predição da posição de átomos de hidrogênio em proteínas.
- Novos critérios para seleção de modelos neurais em problemas de classificação com dados desbalanceados
- Sistemática de seleção de variáveis para classificação de produtos em categorias de modelos de reposição
- Seleção e classificação multivariada de modelos não lineares para frangos de corte
- Parâmetros genotípicos para produção de ovos em raças puras utilizando metodologia de modelos mistos