Extração e alinhamento de hierarquias em páginas WEB
AUTOR(ES)
Bernardo Severo de Souza
FONTE
IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia
DATA DE PUBLICAÇÃO
23/03/2012
RESUMO
A heterogeneidade das formas como as informações são apresentadas na web é uma característica que dificulta a análise de dados entre diferentes fontes. Mesmo em estruturas hierárquicas, que possuem uma relação mínima de ordem, não há um padrão para como exibir os elementos e como referenciar os mesmos. Por isso, o foco principal deste trabalho é apresentar uma ferramenta visual e extensível que centraliza e auxilia operações sobre tais estruturas em páginas da internet. Para tanto, foi elaborada a ferramenta PLATAL (Plataforma de Extração e Alinhamento de Hierarquias), voltada para facilitar as diversas operações de alinhamento de hierarquias. A ferramenta possui quatro módulos principais: um para extração de hierarquias de páginas da internet, tornando-as disponíveis para manipulação em formatos padrões da web semântica; um para alinhamento automatizado dessas hierarquias, baseado em diversas heurísticas e técnicas de alinhamento de ontologias; um para alinhamento manual de hierarquias, possibilitando a criação de alinhamentos de referência; e por fim, um para avaliação de alinhamentos, através da análise de precisão e abrangência. Para avaliar as heurísticas de alinhamento, foram realizados experimentos no domínio de comércio eletrônico. Os resultados foram comparados com o produzido por outras ferramentas descritas na literatura. Portanto, este trabalho contribui como uma forma de viabilizar a criação de hierarquias alinhadas a partir das estruturas heterogêneas encontradas na web.
ASSUNTO(S)
informÁtica ontologia semÂntica world wide web ciencia da computacao
ACESSO AO ARTIGO
http://tede.pucrs.br/tde_busca/arquivo.php?codArquivo=4270Documentos Relacionados
- Regras prÃticas para apresentaÃÃo de pÃginas Web em dispositivos fixos e mÃveis.
- Geração de regras de extração de dados em páginas HTML
- Verificação de unicidade de URLs em coletores de páginas Web
- Um algoritmo para gerenciamento consistente de pÃginas Web
- Estratégias baseadas em exemplos para extração de dados semi-estruturados da web