Uma técnica de indexação de dados semi-estruturados para o processamento eficiente de consultas com ramificação
AUTOR(ES)
Talles Brito Viana
FONTE
IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia
DATA DE PUBLICAÇÃO
20/04/2012
RESUMO
O surgimento de sistemas baseados na Web tem gerado uma vasta quantidade de fontes de documentos semi-estruturados, os quais necessitam ser indexados por sistemas de busca a fim de possibilitar a descoberta de documentos de acordo com necessidades de informação do usuário. Entretanto, um dos maiores desafios no desenvolvimento de técnicas de indexação para documentos semi-estruturados diz respeito a como indexar não somente o conteúdo textual, mas também a informação estrutural dos documentos. O principal problema está em prover suporte para consultas com ramificação sem introduzir fatores que causem perda de precisão aos resultados de pesquisa, bem como, o crescimento indesejado do tempo de processamento de consultas e dos tamanhos de índice. Várias técnicas de indexação para dados semi-estruturados são encontradas na literatura. Apesar das relevantes contribuições, as propostas existentes sofrem com problemas relacionados à perda de precisão, requisitos de armazenamento ou custos de processamento de consultas. Neste contexto, nesta dissertação é proposta uma técnica de indexação (denominada BranchGuide) para dados semi-estruturados que suporta uma bem definida classe de consultas com ramificação sem perda de precisão. Esta classe compreende caminhos com ramificação que permitem expressar dependências paifilho entre elementos nos quais podem ser impostas restrições sob os valores de atributos de tais elementos. Como evidenciado experimentalmente, a adoção da técnica BranchGuide gera excelentes tempos de processamento de consulta e tamanhos de índice menores do que os gerados por uma técnica de interseção estrutural.
ASSUNTO(S)
informática indexação recuperação de informação dados semi-estruturados xml sistemas de computacao data processing indexing techniques information retrieval semi-structured data xml
ACESSO AO ARTIGO
http://bdtd.biblioteca.ufpb.br/tde_busca/arquivo.php?codArquivo=2689Documentos Relacionados
- Estratégias baseadas em exemplos para extração de dados semi-estruturados da web
- AUTOMATIC CLASSIFICATION OF SEMI-STRUCTURED DATA
- Um processo auto-documentável de geração de ontologias de domínio para dados semi-estruturados
- Extração semântica de dados semi-estruturados através de exemplos e ferramentas visuais
- Uma proposta de interface de consulta para recuperação de informação em documentos semi-estruturados