Desempenho e disponibilidade em sistemas distribuídos em larga escala

AUTOR(ES)
DATA DE PUBLICAÇÃO

2005

RESUMO

A Ciência da Computação tem evoluído e alcançado diversas áreas do conhecimento tais como a biologia, a geografia, a astronomia, entre outras. Os Sistemas de Fluxo de Trabalho Científico foram criados com o objetivo de ajudar os pesquisadores dessas áreas nos seus processos de análise de dados. Esses sistemas permitem aos cientistas criar e organizar tarefas relativas aos seus experimentos; executar essas tarefas eficientemente e transparentemente em um ambiente distribuído; assim como monitorar toda a execução. Os desafios para o projeto e a implementação desses sistemas são muitos, principalmente devido às características das aplicações que geram os fluxos de trabalho científicos. Elas são consideradas aplicações intensivas em dados e processamento as quais criam uma enorme quantidade de dados durante a execução e executam por longos períodos. Desta forma, alguns dos desafios para projetar os sistemas de fluxo de trabalho científico são: armazenar, pesquisar e gerenciar grandes bases de dados distribuídas, gerenciar os dados de entrada e de saída, escalonar e monitorar a execução desses fluxos de trabalho em ambientes distribuídos, assim como tratar a ocorrência de falhas tanto de software quanto de hardware que podem acontecer durante a execução. Este trabalho investiga o uso de mecanismos que, de forma transparente, aumentem a disponibilidade de sistemas de fluxo de trabalho científico, de tal forma que o trabalho a ser refeito após uma falha no sistema seja mínimo. Esses mecanismos utilizam como base características próprias desses sistemas para a construção de um sistema de armazenamento dos dados necessários para a recuperação das aplicações após uma falha. Esse sistema provê um armazenamento assíncrono dos dados de tal forma que não há necessidade do travamento da execução das aplicações para que ele aconteça. Os resultados experimentais mostram que o sistema é capaz escalar a grandes bases de dados, e que a nossa abordagem introduz muito pouco overhead na execução das aplicações.

ASSUNTO(S)

software confiabilidade teses tolerancia a falha (computação) teses. computação teses.

Documentos Relacionados