Uso da álgebra linear para análise de similaridades e extração de padrões em sequências protéicas

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

23/11/2010

RESUMO

Extrair padrões de dados de seqüências de proteínas é um dos desafios da Biologia Computacional. Neste trabalho, é apresentada uma metodologia que usa técnicas de Álgebra Linear, Estatística e Otimização para a análise de sequências primárias de proteínas. Inicialmente, cada sequência é transformada num vetor de frequências de peptídeos de tamanho p, considerando todas as combinações possíveis de aminoácidos para formarem um p-peptídeo. Com 20 aminoácidos, o modelo de espaço vetorial é formado por vetores de tamanho 20p. Para avaliar a validade biológica do método, medidas de similaridade da SVD, distância Euclidiana e cosseno, foram comparadas com medidas de similaridade usadas por um programa de alinhamento de sequências (BLAST). A distância euclidiana foi negativamente correlacionada com bit score (r>-0,6) e positivamente correlacionado com E value (r>+0,7). Já o cosseno apresentou correlação negativa com E value (r>-0,7) e correlação positiva com bit score (r>+0,8). Foi obtida também uma estimava para o grau de concordância entre cosseno e distância Euclidiana com o resultado gerado por um programa padrão de alinhamento de sequências, quando da classificação de uma sequência desconhecida. Quanto à interpretação biológica para a SVD, pode-se afirmar que os valores singulares visualizados como scree plots revelam os principais componentes, o número de processos escondidos num banco de dados de sequências protéicas. Ao se aliar a SVD com técnicas de otimização, foi possível a visualização multidimensional de genomas e de outros dados multivariados em 2D ou 3D. Já a combinação de modelos de regressão logística com SVD permitiu a seleção de atributos importantes para a classificação de seqüências protéicas. A principal contribuição desta tese refere-se à validade biológica do uso da decomposição em valores singulares (SVD) para análise de similaridade e extração de padrões em sequências protéicas. Antes da realização deste trabalho, persistiam muitas dúvidas em relação à significância biológica de se considerar uma proteína como um vetor no espaço multidimensional e, principalmente, quanto à validade da análise de similaridade por meio de técnicas de Álgebra Linear. Mesmo sem se trabalhar com matrizes de substituição nem com algoritmos de alinhamentos de sequências, foram obtidos resultados biologicamente válidos. Descrever uma proteína na forma de um vetor permite que não só a SVD possa ser usada na sua análise, mas todas as outras ferramentas utilizadas para a manipulação de vetores e matrizes, da Álgebra Linear, Física, Estatística, Geometria, Computação, também poderão ser usadas na busca por similaridades e na extração de padrões em sequências protéicas.

ASSUNTO(S)

bioinformática teses.

Documentos Relacionados