Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico

AUTOR(ES)
FONTE

Cad. Saúde Pública

DATA DE PUBLICAÇÃO

21/06/2018

RESUMO

O objetivo do presente estudo foi demonstrar a aplicação de uma etapa de pós-processamento determinístico, baseada em medidas de similaridade, para aumentar a performance do relacionamento probabilístico com e sem a etapa de revisão manual. As bases de dados utilizadas no estudo foram o Sistema de Informação de Agravos de Notificação e o Sistema de Informações sobre Mortalidade, no período de 2007 a 2015, do Município de Palmas, Tocantins, Brasil. O software probabilístico utilizado foi o OpenRecLink; foi desenvolvida e aplicada uma etapa de pós-processamento determinístico aos dados obtidos por três diferentes estratégias de pareamento probabilístico. As três estratégias foram comparadas entre si e acrescidas da etapa de pós-processamento determinístico. A sensibilidade das estratégias probabilísticas sem revisão manual variou entre 69,1% e 77,8%, já as mesmas estratégias, acrescidas da etapa de pós-processamento determinístico, apresentaram uma variação entre 92,9% e 96,3%. A sensibilidade de duas estratégias probabilísticas com revisão manual foi semelhante à obtida pela etapa de pós-processamento determinístico, no entanto, o número de pares destinados à revisão manual pelas duas estratégias probabilísticas variou entre 1.177 e 1.132 registros, contra 149 e 145 após a etapa de pós-processamento determinístico. Nossos resultados sugerem que a etapa de pós-processamento determinístico é uma opção promissora, tanto para aumentar a sensibilidade quanto para reduzir o número de pares que precisam ser revisados manualmente, ou mesmo para eliminar sua necessidade.

ASSUNTO(S)

base de dados software processamento automatizado de dados sistemas de informação

Documentos Relacionados