Codificação de Seqüências de Aminoácidos e sua Aplicação na Classificação de Proteínas com Redes Neurais Artificiais

AUTOR(ES)
DATA DE PUBLICAÇÃO

2007

RESUMO

Este trabalho visa propor um sistema de codificação de proteínas de modo que seqüências contendo diferentes quantidades de aminoácidos possam ser convertidas em vetores de mesma dimensão para serem classificadas funcionalmente por Redes Neurais Artificiais. O método proposto utiliza janelas deslizantes de tamanhos previamente definidos, que percorrem a seqüência a ser codificada de modo a resultar em um vetor con-tendo informações sobre a seqüência propriamente dita. O esquema de codifica-ção deve resultar em vetores não ambíguos, deve considerar a similaridade entre os aminoácidos e deve considerar pequenas regiões de similaridade dando uma relevância proporcional ao tamanho da janela deslizante. Uma comparação entre o método proposto e o método utilizado na literatura é realizada, onde sequências de aminoácidos correspondentes às proteínas de 10 bactérias foram codificadas e utilizadas para treinamento de Redes Neurais Artifi-ciais a fim de classificar essas seqüências de acordo com as classes funcionais da base de dados do Cluster of Orthologous Groups (COG). A comparação mostra a superioridade do esquema de codificação proposto visto que a informação armazenada nos vetores resultantes permitiu que as Redes Neu-rais Artificiais classificassem corretamente os dois conjuntos de sequências de ami-noácidos de acordo com as classes funcionais do COG de várias sequências que não haviam sido anteriormente classificadas. As Redes Neurais Artificiais treinadas com os vetores gerados pelo esquema E-SCSW tiveram taxa de acerto que variou de 90, 2% à 100% para as proteínas da Chromobacterium violaceum e de 62, 5% à 100% para as proteínas da Chlamydophila felis. Todas as proteínas, cujos vetores correspondentes foram classificados pelas Re-des Neurais Artificiais de forma diferente com a classificação encontrada nos ban-cos de dados, tiveram sua classificação verificada através do alinhamento realizado pelo CD-Search e a base de dados do COG. As Redes Neurais Artificiais treinadas com os vetores gerados pelo esquema E-SCSW foram capazes de reclassificar cor-retamente 184 proteínas da Chromobacterium violaceum e 94 proteínas da Chlamy-dophila felis as quais haviam sido classificadas de maneira inconsistente nos banco de dados públicos. Este trabalho tem como principal contribuição um novo método de codificação de sequências de aminoácidos onde Redes Neurais Artificiais possam utilizar os ve-tores resultantes como conjunto de entrada. A verificação dos resultados mostrou que os bancos de dados públicos possuem algumas inconsistências e que as pro-teínas depositadas necessitam ser verificadas com uma certa freqüência. O método de codificação aqui proposto poderia portanto ser utilizado como um complemento aos métodos tradicionais de classificação de proteínas que utilizam como base o alinhamento par-a-par.

ASSUNTO(S)

redes neurais (neurobiologia) teses. sequencia de aminoacidos teses. bioinformática teses.

Documentos Relacionados