Modelos logisticos quadraticos com maxima verossimilhança penalizada para previsão de estrutura secundaria de proteinas

AUTOR(ES)
DATA DE PUBLICAÇÃO

1995

RESUMO

Apesar do grande número de algoritmos existentes para a previsão de estrutura secundária de proteínas, determinadas técnicas estatísticas ainda não haviam sido exploradas. Utilizamos a metodologia de funções discriminantes logísticas na tentativa de ultrapassar a acurácia obtida por métodos que usaram redes neurais e teoria da informação. O número de parâmetros foi limitado explorando-se a natureza periódica das alfa-hélices e placas pregueadas beta. Uma grande variedade de modelos foi pesquisada, usando abordagem semi-paramétrica (máxima verossimilhança com penalização) combinada com seleção gradual de parâmetros. Mostramos que os modelos mais bem sucedidos tem ao redor de 800 parâmetros "efetivos" para o conjunto de dados utilizado. Os 340 parâmetros lineares e parte dos 800 parâmetros quadráticos puderam ser interpretados do ponto de vista físico-químico, contrastando com outros métodos da literatura. Após otimização e validação _cruzada, a acurácia foi de 65.9% para três estados estruturais, o que representa um resultado ligeiramente superior aos dos algoritmos já publicados. A maior acurácia de previsão está concentrada numa porção dos resíduos e a confiança da previsão pode ser facilmente calculada. Exploramos a possibilidade de usar estes resíduos, previstos com alta confiabilidade, para prever a estrutura completa da proteína, assim como muitos outros artifícios para aumentar a eficiência do método, com resultados limitados. Embora tenhamos obtido apenas uma modesta melhora da acurácia, a maneira como implementamos o modelo sugere que utilizamos toda a informação estrutural contida em segmentos de até 17 aminoácidos, no nível de complexidade que a quantidade de dados permite

ASSUNTO(S)

proteinas - analise modelos log-lineares sequencia de aminoacidos

Documentos Relacionados