Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação

AUTOR(ES)
FONTE

IBICT

DATA DE PUBLICAÇÃO

20/04/2012

RESUMO

O surgimento de sistemas baseados na Web tem gerado uma vasta quantidade de fontes de documentos semi-estruturados, os quais necessitam ser indexados por sistemas de busca a fim de possibilitar a descoberta de documentos de acordo com necessidades de informação do usuário. Entretanto, um dos maiores desafios no desenvolvimento de técnicas de indexação para documentos semi-estruturados diz respeito a como indexar não somente o conteúdo textual, mas também a informação estrutural dos documentos. O principal problema está em prover suporte para consultas com ramificação sem introduzir fatores que causem perda de precisão aos resultados de pesquisa, bem como, o crescimento indesejado do tempo de processamento de consultas e dos tamanhos de índice. Várias técnicas de indexação para dados semi-estruturados são encontradas na literatura. Apesar das relevantes contribuições, as propostas existentes sofrem com problemas relacionados à perda de precisão, requisitos de armazenamento ou custos de processamento de consultas. Neste contexto, nesta dissertação é proposta uma técnica de indexação (denominada BranchGuide) para dados semi-estruturados que suporta uma bem definida classe de consultas com ramificação sem perda de precisão. Esta classe compreende caminhos com ramificação que permitem expressar dependências paifilho entre elementos nos quais podem ser impostas restrições sob os valores de atributos de tais elementos. Como evidenciado experimentalmente, a adoção da técnica BranchGuide gera excelentes tempos de processamento de consulta e tamanhos de índice menores do que os gerados por uma técnica de interseção estrutural.

ASSUNTO(S)

informática indexação recuperação de informação dados semi-estruturados xml sistemas de computacao data processing indexing techniques information retrieval semi-structured data xml

Documentos Relacionados