Acurácia das técnicas de relacionamento probabilístico e determinístico: o caso da tuberculose

AUTOR(ES)
FONTE

Rev. Saúde Pública

DATA DE PUBLICAÇÃO

22/08/2016

RESUMO

RESUMO OBJETIVO Analisar a acurácia das técnicas determinística e probabilística para identificação de registros duplicados de tuberculose, assim como as características dos pares discordantes. MÉTODOS Foram analisados todos os registros de tuberculose no período de 2009 a 2011 do estado do Rio de Janeiro. Foi desenvolvido algoritmo para relacionamento determinístico, usando conjunto de 70 regras, a partir da combinação de fragmentos das variáveis-chave com ou sem modificações (Soundex ou substring). Cada regra era formada por três ou mais fragmentos. Para a abordagem probabilística, foi necessário estabelecer ponto de corte para o escore, acima do qual os links seriam classificados automaticamente como pertencentes ao mesmo indivíduo. O ponto de corte foi obtido por meio do relacionamento da base de dados Sistema de Informação de Agravos de Notificação – Tuberculose com ela mesma, posterior revisão manual e curvas ROC e precision-recall. Foram calculadas a sensibilidade e especificidade para análise de acurácia. RESULTADOS A acurácia variou de 87,2% a 95,2% para sensibilidade e 99,8% a 99,9% para especificidade para as técnicas probabilística e determinística, respectivamente. A presença de valores faltantes para as variáveis-chave e o baixo percentual da medida de similaridade para o nome e data de nascimento foram os principais responsáveis pela não identificação dos registros do mesmo indivíduo pelas técnicas utilizadas. CONCLUSÕES As duas técnicas apresentam alta concordância para a classificação como par. Apesar de a técnica determinística ter identificado mais registros duplicados que a probabilística, a segunda recuperou registros não identificados pela primeira. A necessidade e a experiência do usuário devem ser consideradas para a escolha da técnica a ser utilizada.

ASSUNTO(S)

tuberculose, epidemiologia confiabilidade dos dados sensibilidade e especificidade vigilância epidemiológica, estatística & dados numéricos

Documentos Relacionados