Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database

Adriano Barbosa da Silva

Este trabalho visa descrever as tecnologias utilizadas para o desenvolvimento da base de dados Plant Defense Mechanisms, uma base de dados sobre mecanismos de defesa em plantas contra estresse biótico e abiótico. Para isso desenvolvemos o programa LAITOR para identificar as coocorrências de nomes de proteínas e estímulos abióticos (biointities) na literatura científica juntamente com termos indicativos de uma ação biológica (bioactions), validado aquelas coocorrências na mesma frase apenas. A ferramenta NLPROT foi usada para a marcação inicial das bioentities que foram a posteriori validadas pelo LAITOR. Em seguida, para aqueles termos protéicos pertencentes a base de dados NCBI Gene que possuíam um registro correspondente na base de dados UniProtKB, foi realizado agrupamento de seqüências relacionadas nos outros organismos pertencentes a mesma base de dados, para isso desenvolvemos o software Seed Linkage. Este software explora as ligações múltiplas diretas e indiretas das seqüências desses outros organismos para com a seed inicialmente determinada. Encontramos os parâmetros de escore 400 (bruto) e 0.3 (relativo) como sendo os que maximizam a inclusão de seqüências corretas em clusters manualmente inspecionados. Depois de identificarmos 780 termos protéicos a partir da análise de 7.306 resumos científicos com o programa LAITOR, 1.390 identificadores únicos do UniProtKB foram utilizados para agrupar 15.669 seqüências nos 611 grupos que compõem a PDM. Desenvolvemos uma biblioteca, denominada SRS.php, para adquirir as informações referentes a cada umas destas proteínas a partir do servidor SRS instalado no EMBL utilizando a tecnologia de Web Services. Com o uso desta biblioteca, um cliente SOAP acessa o servidor e recupera, de maneira programática, os dados lá depositados. Depois de efetuarmos a análise de mineração de texto com o programa LAITOR, o agrupamento das seqüências através do método Seed Linkage e a aquisição subseqüente dos dados usando o protocolo SOAP, todas essas informações foram disponibilizadas num servidor HTML no sítio http://www.biodados.icb.ufmg.br/pdm. Neste sítio, os usuários podem efetuar uma busca utilizando palavras-chaves bem como busca por similaridade de seqüência pelo método BLAST. Após terem os registros desejados visualizados, um link é criado para as co-ocorrências dos termos protéicos na análise de mineração de texto, bem como para uma árvore filogenética das proteínas presentes em cada agrupamento da PDM. Além disso, implementamos o servidor SOAP da PDM, que faz com que seus dados sejam distribuídos por meio de Web Services. Criamos um método, denomidado query_pdm, onde todos os registros da base de dados podem ser consultados via SOAP. Em suma, apresentamos uma série de métodos implementados como componentes de softwares e programas propriamente ditos, que podem ser utilizados em aplicações semelhantes aquelas da PDM, sendo, todos eles, distribuídos gratuitamente a comunidade científica interessada nessas técnicas

Mineração de texto, agrupamento de seqüências e integração de dados para o desenvolvimento da Plant Defense Mechanisms Database

AUTOR(ES)

FONTE

DATA DE PUBLICAÇÃO

RESUMO

ASSUNTO(S)

ACESSO AO ARTIGO

Documentos Relacionados