Avaliação experimental de uma técnica de padronização de escores de similaridade / Experimental evaluation of a similarity score standardization technique
AUTOR(ES)
Nunes, Marcos Freitas
DATA DE PUBLICAÇÃO
2010
RESUMO
Com o crescimento e a facilidade de acesso a Internet, o volume de dados cresceu muito nos últimos anos e, consequentemente, ficou muito fácil o acesso a bases de dados remotas, permitindo integrar dados fisicamente distantes. Geralmente, instâncias de um mesmo objeto no mundo real, originadas de bases distintas, apresentam diferenças na representação de seus valores, ou seja, os mesmos dados no mundo real podem ser representados de formas diferentes. Neste contexto, surgiram os estudos sobre casamento aproximado utilizando funções de similaridade. Por consequência, surgiu a dificuldade de entender os resultados das funções e selecionar limiares ideais. Quando se trata de casamento de agregados (registros), existe o problema de combinar os escores de similaridade, pois funções distintas possuem distribuições diferentes. Com objetivo de contornar este problema, foi desenvolvida em um trabalho anterior uma técnica de padronização de escores, que propõe substituir o escore calculado pela função de similaridade por um escore ajustado (calculado através de um treinamento), o qual é intuitivo para o usuário e pode ser combinado no processo de casamento de registros. Tal técnica foi desenvolvida por uma aluna de doutorado do grupo de Banco de Dados da UFRGS e será chamada aqui de MeaningScore (DORNELES et al., 2007). O presente trabalho visa estudar e realizar uma avaliação experimental detalhada da técnica MeaningScore. Com o final do processo de avaliação aqui executado, é possível afirmar que a utilização da abordagem MeaningScore é válida e retorna melhores resultados. No processo de casamento de registros, onde escores de similaridades distintos devem ser combinados, a utilização deste escore padronizado ao invés do escore original, retornado pela função de similaridade, produz resultados com maior qualidade.
ASSUNTO(S)
armazenamento : dados similarity querying data integration banco : dados data cleaning métricas : similaridade consulta : similaridade record matching adjusted score data quality
ACESSO AO ARTIGO
http://hdl.handle.net/10183/25494Documentos Relacionados
- Qualificador Lattes : uma ferramenta para a padronização de dados utilizando junção por similaridade textual
- STANDARDIZATION OF THE FRICKE GEL DOSIMETRY METHOD AND TRIDIMENSIONAL DOSE EVALUATION USING THE MAGNETIC RESONANCE IMAGING TECHNIQUE
- Avaliação da qualidade de funções de similaridade no contexto de consultas por abrangência
- UMA NOVA TÉCNICA DE PREDIÇÃO
- Avaliação da técnica de cintilografia da perfusão pulmonar em cães