"Armazenamento distribuído de dados e checkpointing de aplicações paralelas em grades oportunistas" / Distributed data storage and checkpointing of parallel applications in opportunistic grids
AUTOR(ES)
Raphael Yokoingawa de Camargo
DATA DE PUBLICAÇÃO
2007
RESUMO
Grades computacionais oportunistas utilizam recursos ociosos de máquinas compartilhadas para executar aplicações que necessitam de um alto poder computacional e/ou trabalham com grandes quantidades de dados. Mas a execução de aplicações paralelas computacionalmente intensivas em ambientes dinâmicos e heterogêneos, como grades computacionais oportunistas, é uma tarefa difícil. Máquinas podem falhar, ficar inacessíveis ou passar de ociosas para ocupadas inesperadamente, comprometendo a execução de aplicações. Um mecanismo de tolerância a falhas que dê suporte a arquiteturas heterogêneas é um importante requisito para estes sistemas. Neste trabalho, analisamos, implementamos e avaliamos um mecanismo de tolerância a falhas baseado em checkpointing para aplicações paralelas em grades computacionais oportunistas. Este mecanismo permite o monitoramento de execuções e a migração de aplicações entre nós heterogêneos da grade. Mas além da execução, é preciso gerenciar e armazenar os dados gerados e utilizados por estas aplicações. Desejamos uma infra-estrutura de armazenamento de dados de baixo custo e que utilize o espaço livre em disco de máquinas compartilhadas da grade. Devemos utilizar somente os ciclos ociosos destas máquinas para armazenar e recuperar dados, de modo que um sistema de armazenamento distribuído que as utilize deve ser redundante e tolerante a falhas. Para resolver o problema do armazenamento de dados em grades oportunistas, projetamos, implementamos e avaliamos o middleware OppStore. Este middleware provê armazenamento distribuído e confiável de dados, que podem ser acessados de qualquer máquina da grade. As máquinas são organizadas em aglomerados, que são conectados por uma rede peer-to-peer auto-organizável e tolerante a falhas. Dados são codificados em fragmentos redundantes antes de serem armazenados, de modo que arquivos podem ser reconstruídos utilizando apenas um subconjunto destes fragmentos. Finalmente, para lidar com a heterogeneidade dos recursos, desenvolvemos uma extensão ao protocolo de roteamento em redes peer-to-peer Pastry. Esta extensão adiciona balanceamento de carga e suporte à heterogeneidade de máquinas ao protocolo Pastry.
ASSUNTO(S)
bsp peer-to-peer bsp fault-tolerance distributed data storage computational grids armazenamento distribuído grid computing peer-to-peer checkpointing checkpointing tolerância a falhas grades computacionais
Documentos Relacionados
- Uma Abordagem para o Gerenciamento da Execução de Aplicações com Restrições de Tempo de Execução em Grades Computacionais Oportunistas
- Escalonamento de aplicações paralelas: de clusters para grids
- Modelo distribuído para agregação de armazenamento em redes de sensores sem fio=Distributed model for storage aggregation in wireless sensor networks
- A specification language for execution flow in parallel applications
- Semantic approach to the integration and management of resources and applications in computing grids.