Avaliação de diferentes estratégias de blocagem no relacionamento probabilístico de registros
AUTOR(ES)
Coeli, Cláudia Medina, Camargo Jr., Kenneth Rochel de
FONTE
Revista Brasileira de Epidemiologia
DATA DE PUBLICAÇÃO
2002-08
RESUMO
A blocagem (blocking), que consiste na criação de blocos lógicos de registros dentro de arquivos a serem relacionados, é um dos processos que faz parte do relacionamento probabilístico de grandes bases de dados. Os objetivos deste trabalho são comparar a eficiência de diferentes esquemas de blocagem e estudar a eficiência da utilização de uma rotina de padronização desenvolvida pelos autores, que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som. Procedemos ao relacionamento de uma base de dados de mortalidade com 59.065 óbitos com uma base de óbitos hospitalares com 531 registros, que apresentavam um registro correspondente na base de mortalidade. Diferentes estratégias de blocagem foram comparadas em relação ao custo para o processamento e a proporção de pares verdadeiros perdidos. A estratégia de blocagem em múltiplos passos foi mais eficiente, permitindo a identificação de todos os pares verdadeiros com a formação de um número total de pares que foi inferior ao obtido em duas rotinas diferentes de passo único. Já entre as estratégias de passo único avaliadas, a que se baseou no emprego da chave formada pela combinação do código soundex do primeiro nome e sexo apresentou o melhor resultado. A utilização da rotina de padronização que aplica a mesma grafia para as primeiras sílabas de nomes com o mesmo som não apresentou um impacto importante, quer em custos, quer na redução da perda de pares verdadeiros.
ASSUNTO(S)
banco de dados relacionamento probabilístico de registros blocagem epidemiologia
Documentos Relacionados
- Relacionamento probabilístico de dados e um procedimento automático para minimizar o problema da incerteza no pareamento de registros
- Acurácia da metodologia de relacionamento probabilístico de registros para identificação de óbitos em estudos de sobrevida
- Relacionamento probabilístico de registros: uma aplicação na área de morbidade materna grave (near miss) e mortalidade materna
- Acurácia do relacionamento probabilístico de registros na identificação de óbitos em uma coorte de pacientes com insuficiência cardíaca descompensada
- Acurácia da metodologia de relacionamento probabilístico de registros na identificação de doadores de sangue no banco de dados do Sistema de Informações sobre Mortalidade