Uso de uma ontologia de lugar urbano para reconhecimento e extração de evidências geoespaciais na Web

AUTOR(ES)
DATA DE PUBLICAÇÃO

2006

RESUMO

Consultas que incluem pelo menos um termo relacionado a geografia, como nomes de lugar e feições naturais, são hoje um subconjunto significativo das consultas submetidas às máquinas de busca. O interesse por informação local na Web (busca local) vem aumentando a cada dia e para esse tipo de busca, a Web é um vasto repositório de informação local e geográfica. No entanto, as máquinas de busca tradicionais apresentam limitações quanto ao reconhecimento do escopo geográfico existente nas páginas da Web. Páginas referentes ao mesmo lugar, mas que usam nomes alternativos provavelmente não serão recuperadas juntas. Além disso, muitas vezes o contexto geográfico existente nas páginas está implícito, podendo ser inferido pela existência, por exemplo, de um número de telefone ou código postal. Para resolver esses problemas, esta tese tem como foco a Web local, propondo uma abordagem apoiada em uma ontologia de lugar urbano, que permita reconhecer, extrair e geocodificar evidências geo-espaciais de características locais, como endereços, códigos postais e telefones presentes em páginas da Web. As evidências geo-espaciais representam localizações implícitas, capazes de correlacionar o conteúdo de uma página, ou de parte dela, a uma localização geográfica urbana. Assim, as máquinas de busca poderiam por exemplo, utilizar essa informação para a recuperação de páginas referentes a serviços e atividades em uma determinada localidade ou próximos a ela. Assim as principais contribuições desta tese são (1) caracterização de endereços presentes em páginas da Web como fontes de evidência geo-espacial e definição de padrões para o seu reconhecimento e extração, (2) definição da OnLocus, uma ontologia de lugar urbano para auxiliar o processo de reconhecimento e extração de evidências geo-espaciais de páginas da Web, (3) criação de uma base de conhecimento para reconhecimento de lugares brasileiros, baseada na OnLocus, (4) proposta de uma estratégia de categorização geográfica de uma página,ou de partes dela, dentro da divisão territorial de um país, e (5) avaliação das características quantitativas e qualitativas dos endereços presentes nas páginas da Web brasileira. Todas essas contribuições foram validadas por meio de experimentação, usando dados reais correspondentes a um conjunto de 4 milhões de páginas da Web. Como conseqüência adicional, foi possível traçar um retrato das páginas da Web brasileira no que tange a padrões de endereço e, conseqüentemente, entender melhor como geocodificá-las. Os resultados desta tese abrem um leque de perspectivas para novos tipos de aplicação, como, por exemplo, uso de links de navegação baseados em localização geográfica, classificação geográfica das páginas da Web, mineração de dados geo-espaciais em páginas da Web e anotação semântica das páginas.

ASSUNTO(S)

ontologias teses. sistemas de informação geografica teses. sistemas de recuperação da informação teses. computação teses

Documentos Relacionados