Análise da classificação metagenômica baseada em composição / Metagenomics analysis of the classification based on composition

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

15/03/2011

RESUMO

A metagenômica é o estudo do material genético extraído diretamente de comunidades microbianas. Ao invés de estudar as espécies microbianas isoladamente, como ocorre nos estudos genômicos convencionais, a metagenômica considera as interações entre os microorganismos de determinado habitat e a inuência de tais interações sobre a comunidade microbiana. Um dos passos fundamentais de um estudo metagenômico é a chamada classificação taxonômica, isto é, a identificação das espécies das quais o material genético foi obtido. O processo de classificação taxonômica envolve uma série de decisões de projeto. Atualmente, no contexto da metagenômica, tais decisões são tomadas de maneira quase intuitiva, sem nenhum embasamento teórico ou empírico. A proposta deste trabalho é preencher essa lacuna. Em particular, procura-se analisar o impacto dos seguintes parâmetros sobre a precisão de uma classificação taxonômica: (i) o comprimento das subseqüências usadas na codificação dos metagenomas; (ii) a medida de distância utilizada para medir a similaridade das seqüências; e (iii) a estratégia de classificação, que pode ser a convencional, em que as seqüências são classificadas isoladamente, ou a hierárquica, em que o processo de classificação leva em consideração o contexto taxonômico de cada fragmento. Para realizar tal estudo, foi adotado um classificador simples que realiza a categorização baseando-se no grau de semelhança entre a seqüência em questão e o seu vizinho mais próximo { ou seja, o popular k-NN com k = 1. A escolha pelo 1-NN justifica-se pelo fato de esse classificador incorporar um nível mínimo de viés ao processo de classificação, tendo em vista que esse modelo não faz qualquer suposição a respeito da distribuição dos dados. Foi realizado um experimento computacional de larga escala em que todos os genomas microbianos seqüenciados até Janeiro de 2010 foram utilizados como dados. A partir de uma análise extensiva dos resultados, chegou-se às seguintes conclusões. Subseqüências de pequeno comprimento geram altos erros de classificação, pois codificam de forma semelhante fragmentos metagenômicos distintos. Por outro lado, subseqüências muito longas representam de forma diferente metagenomas semelhantes, e isso também resulta em erros de classificacão altos. Em relação a noção de distância adotada, ao contrário do esperado, a variação das métricas não alterou de forma significativa a precisão do classificador. Finalmente, a estratégia hierárquica de classificação mostrou-se mais eficaz do que a convencional, o que está de acordo com as expectativas iniciais.

ASSUNTO(S)

genoma metagenômica classificação baseada em composição,classificaçãotaxonômica. genetica

Documentos Relacionados