Um framework para transformaÃÃo automÃtica de documentos e extraÃÃo de informaÃÃes baseado em XML

Lucas Roberto Bechert Schmitz

Uma grande quantidade de informaÃÃes, sobre diversos assuntos, se encontra disponÃvel na Web. Essa quantidade cresce ano a ano e, aliados Ãs informaÃÃes, estÃo os formatos com que elas estÃo representadas (PDF, DOC, RTF, HTML, TEX, por exemplo.). Certos formatos dependem de tecnologias e/ou plataformas especÃficas, dificultando assim o acesso Ãs informaÃÃes contidas no documento. Tendo em vista esse problema, surge a necessidade de se ter formas para a conversÃo entre formatos especÃficos. Muitas ferramentas sÃo oferecidas nesse sentido, porÃm geralmente oferecem poucas possibilidades de conversÃo, um ou dois formatos em mÃdia. Outro problema gerado pela grande quantidade de informaÃÃes disponÃveis na Web Ã a questÃo da filtragem do que realmente Ã interessante ao usuÃrio que efetua uma busca sobre determinado assunto. Os atuais buscadores trazem como resultados documentos completos com diversas informaÃÃes alÃm das necessÃrias ao usuÃrio. A anÃlise do que Ã ou nÃo interessante fica a cargo do prÃprio usuÃrio, tornando-se um trabalho manual. A extraÃÃo automÃtica de informaÃÃes nos documentos dispostos na Web se torna difÃcil, pois nem todos os documentos apresentam seus conteÃdos de forma estruturada, mas sim, muitos deles apresentam conteÃdos semi-estruturados ou ainda, nÃo-estruturados. Na tentativa de amenizar alguns desses problemas foi proposta a construÃÃo de um Framework para conversÃo entre formatos de documentos e extraÃÃo de informaÃÃes dos mesmos. Esse Framework Ã constituÃdo de dois mÃdulos que utilizam o formato XML como intermediador na conversÃo requerida. Esses mÃdulos sÃo: (1) o de conversÃo de formatos de entrada especÃficos para XML, que tambÃm Ã responsÃvel pela extraÃÃo de informaÃÃo dos documentos; e (2) o de conversÃo de XML para formatos de saÃda especÃficos. Com a utilizaÃÃo do XML, os documentos convertidos tornam-se estruturados, facilitando assim o processo automÃtico de extraÃÃo de informaÃÃes. Esta dissertaÃÃo abrange o primeiro mÃdulo descrito acima e parte de resultados alcanÃados por outro trabalho previamente realizado, onde foram construÃdas funcionalidades para os formatos de entrada PDF, PS, DOC, RTF e HTML. As contribuiÃÃes propostas a partir deste trabalho sÃo: adiÃÃo do formato TEX (LaTeX) como mais uma possibilidade de entrada; e reorganizar a arquitetura do Framework previamente desenvolvido, para que este seja acessado como um serviÃo Web, utilizando os conceitos de Web Services

Um framework para transformaÃÃo automÃtica de documentos e extraÃÃo de informaÃÃes baseado em XML

AUTOR(ES)

DATA DE PUBLICAÇÃO

RESUMO

ASSUNTO(S)

ACESSO AO ARTIGO

Documentos Relacionados