SAAL - um sistema para armazenamento e anÃlise de links da web

AUTOR(ES)
DATA DE PUBLICAÇÃO

2003

RESUMO

O aumento do nÃmero de documentos disponÃveis na World Wide Web (WWW) traz uma sÃrie de novos desafios para a Ãrea de RecuperaÃÃo de InformaÃÃo (RI). As pÃginas Web divergem em conteÃdo e qualidade alÃm de possuÃrem uma alta dinÃmica. Em adiÃÃo a estes desafios os engenho de busca estÃo constantemente lidando com usuÃrios inexperientes e com pÃginas Web construÃdas com o intuito de manipular as funÃÃes de ranking dos engenhos de busca. Estudos recentes tÃm mostrado que a performance dos engenhos de busca està longe da ideal. Apesar das evoluÃÃes tecnolÃgicas, conseguidas atà o momento, permitirem a coleta e o armazenamento de um nÃmero cada vez maior de pÃginas nas bases de Ãndices dos engenhos de busca, a maioria destes sistemas enfrenta vÃrios problemas no momento de classificar as pÃginas de acordo com a necessidade do usuÃrio, em outras palavras, retornar para o usuÃrio a informaÃÃo que ele necessita. A maioria dos engenhos de busca analisa as pÃginas Web como um documento texto simples, nÃo levando em consideraÃÃo a estrutura na qual a pÃgina Web està inserida. Diferentemente das coleÃÃes de documentos âflatâ, a WWW corresponde a uma coleÃÃo de documentos hipertexto que possuem informaÃÃes auxiliares que vÃo alÃm do conteÃdo textual, tais como a estrutura dos hiperlinks e o texto dos hiperlinks. Estas informaÃÃes sÃo chamadas de informaÃÃes âhiperâ, que em conjunto com as informaÃÃes âtextoâ compÃem o conjunto de informaÃÃes que caracteriza uma pÃgina Web. A inadequaÃÃo de estratÃgias singulares no processo de recuperaÃÃo de informaÃÃes no ambiente Web constitui-se em um forte argumento para mostrar que as tÃcnicas recuperaÃÃo de informaÃÃo tradicionais nÃo sÃo suficientes no momento de encontrar informaÃÃes relevantes na Web. Este trabalho propÃe a utilizaÃÃo da estrutura de links da Web com o objetivo de produzir um peso de âimportÃnciaâ global para cada pÃgina Web indexada por um engenho de busca. Este peso, chamado âpeso de autoridadeâ, à integrado aos engenhos de busca, mais especificamente a funÃÃo de ranking dos engenhos de busca que passa a utilizar estes pesos juntamente com pesos de similaridade textual, com o objetivo de melhorar a eficÃcia de recuperaÃÃo do sistema. Para calcular o âpeso de autoridadeâ para cada pÃgina Web foi elaborado um algoritmo de anÃlise de links, o Global Hybrid Hyperlinked Inducted Topic Search (GHHITS) que foi concebido a partir do estudo dos algoritmos de anÃlise de links prÃexistentes. Para validar o algoritmo em questÃo foi implementado o SAAL - Sistema para Armazenamento e AnÃlise de Links - que propÃe uma maneira eficiente de armazenar a estrutura de links da Web, e executar o algoritmo proposto sobre esta estrutura. Por fim, sÃo apresentados os resultados obtidos durante os testes que avaliaram a eficÃcia de recuperaÃÃo de estratÃgias de busca que utilizaram o peso de autoridade como componente da funÃÃo de ranking. Neste trabalho à mostrado, portanto, como as informaÃÃes estruturais podem ser utilizadas de forma a melhorar a qualidade da resposta retornada por um engenho de busca

ASSUNTO(S)

armazenamento links web anÃlise ciencia da computacao

Documentos Relacionados