Extração e alinhamento de hierarquias em páginas WEB

AUTOR(ES)
FONTE

IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia

DATA DE PUBLICAÇÃO

23/03/2012

RESUMO

A heterogeneidade das formas como as informações são apresentadas na web é uma característica que dificulta a análise de dados entre diferentes fontes. Mesmo em estruturas hierárquicas, que possuem uma relação mínima de ordem, não há um padrão para como exibir os elementos e como referenciar os mesmos. Por isso, o foco principal deste trabalho é apresentar uma ferramenta visual e extensível que centraliza e auxilia operações sobre tais estruturas em páginas da internet. Para tanto, foi elaborada a ferramenta PLATAL (Plataforma de Extração e Alinhamento de Hierarquias), voltada para facilitar as diversas operações de alinhamento de hierarquias. A ferramenta possui quatro módulos principais: um para extração de hierarquias de páginas da internet, tornando-as disponíveis para manipulação em formatos padrões da web semântica; um para alinhamento automatizado dessas hierarquias, baseado em diversas heurísticas e técnicas de alinhamento de ontologias; um para alinhamento manual de hierarquias, possibilitando a criação de alinhamentos de referência; e por fim, um para avaliação de alinhamentos, através da análise de precisão e abrangência. Para avaliar as heurísticas de alinhamento, foram realizados experimentos no domínio de comércio eletrônico. Os resultados foram comparados com o produzido por outras ferramentas descritas na literatura. Portanto, este trabalho contribui como uma forma de viabilizar a criação de hierarquias alinhadas a partir das estruturas heterogêneas encontradas na web.

ASSUNTO(S)

informÁtica ontologia semÂntica world wide web ciencia da computacao

Documentos Relacionados