Acurácia das técnicas de relacionamento probabilístico e determinístico: o caso da tuberculose
AUTOR(ES)
Oliveira, Gisele Pinto de, Bierrenbach, Ana Luiza de Souza, Camargo Júnior, Kenneth Rochel de, Coeli, Cláudia Medina, Pinheiro, Rejane Sobrino
FONTE
Rev. Saúde Pública
DATA DE PUBLICAÇÃO
22/08/2016
RESUMO
RESUMO OBJETIVO Analisar a acurácia das técnicas determinística e probabilística para identificação de registros duplicados de tuberculose, assim como as características dos pares discordantes. MÉTODOS Foram analisados todos os registros de tuberculose no período de 2009 a 2011 do estado do Rio de Janeiro. Foi desenvolvido algoritmo para relacionamento determinístico, usando conjunto de 70 regras, a partir da combinação de fragmentos das variáveis-chave com ou sem modificações (Soundex ou substring). Cada regra era formada por três ou mais fragmentos. Para a abordagem probabilística, foi necessário estabelecer ponto de corte para o escore, acima do qual os links seriam classificados automaticamente como pertencentes ao mesmo indivíduo. O ponto de corte foi obtido por meio do relacionamento da base de dados Sistema de Informação de Agravos de Notificação – Tuberculose com ela mesma, posterior revisão manual e curvas ROC e precision-recall. Foram calculadas a sensibilidade e especificidade para análise de acurácia. RESULTADOS A acurácia variou de 87,2% a 95,2% para sensibilidade e 99,8% a 99,9% para especificidade para as técnicas probabilística e determinística, respectivamente. A presença de valores faltantes para as variáveis-chave e o baixo percentual da medida de similaridade para o nome e data de nascimento foram os principais responsáveis pela não identificação dos registros do mesmo indivíduo pelas técnicas utilizadas. CONCLUSÕES As duas técnicas apresentam alta concordância para a classificação como par. Apesar de a técnica determinística ter identificado mais registros duplicados que a probabilística, a segunda recuperou registros não identificados pela primeira. A necessidade e a experiência do usuário devem ser consideradas para a escolha da técnica a ser utilizada.
ASSUNTO(S)
tuberculose, epidemiologia confiabilidade dos dados sensibilidade e especificidade vigilância epidemiológica, estatística & dados numéricos
Documentos Relacionados
- Inclusão de etapa de pós-processamento determinístico para o aumento de performance do relacionamento (linkage) probabilístico
- Acurácia do relacionamento probabilístico na avaliação da alta complexidade em cardiologia
- Teoria do Caos Determinístico: Conceitos Básicos
- Tuberculose e diabetes: relacionamento probabilístico de bases de dados para o estudo da associação entre ambas doenças
- Acurácia da metodologia de relacionamento probabilístico de registros para identificação de óbitos em estudos de sobrevida