Verificação de unicidade de URLs em coletores de páginas Web
AUTOR(ES)
Wallace Favoreto Henrique
DATA DE PUBLICAÇÃO
2011
RESUMO
Uma das principais dificuldades existentes no desenvolvimento de um coletor de páginas web está no componente verificador de unicidade de URLs, pois estruturas de dados complexas são exigidas para garantir que a identificação das URLs ainda não coletadas seja feita de forma eficaz e eficiente. Caso o verificador de unicidade de URLs não ofereça eficácia e eficiência, os outros componentes do coletor serão prejudicados. Neste trabalho, apresentamos um novo algoritmo para verificar unicidade de URLs chamado VEUNI (VErificador de UNIcidade de URLs).O algoritmo VEUNI foi comparado com o melhor algoritmo conhecido na literatura, o qual foi considerado um baseline nos experimentos. O estudo comparativo entre o algoritmo VEUNI e o algoritmo baseline foi realizado por meio de uma simulação de uma coleta de aproximadamente 350 milhões de páginas, utilizando uma coleção de referência chamada ClueWeb09. Os resultados experimentais mostram que o algoritmo proposto é uma alternativa que pode ser utilizada com êxito em coletores de páginas que visam ser escaláveis para toda a Web.
ASSUNTO(S)
computação teses. recuperação de informação teses.
ACESSO AO ARTIGO
http://hdl.handle.net/1843/SLSS-8GQJNADocumentos Relacionados
- Extração e alinhamento de hierarquias em páginas WEB
- Um algoritmo para gerenciamento consistente de pÃginas Web
- Implementação computacional e verificação de ontologias para a modelagem da confiança em transações na web
- Um mecanismo de consulta temporal por palavras-chave em páginas web
- Regras prÃticas para apresentaÃÃo de pÃginas Web em dispositivos fixos e mÃveis.