Um Framework para extraÃÃo de informaÃÃes: uma abordagem baseada em XML

Davi Medeiros Cabral

Com o crescimento da Internet, muitas informaÃÃes vÃm se tornando rapidamente disponÃveis, a cada ano, devido Ã facilidade do processo de publicaÃÃo digital. PorÃm, a existÃncia de diferentes formatos de representaÃÃo (HTML, PS, RTF, etc.) e de conteÃdo (estruturado, semi-estruturado e livre) torna o gerenciamento eficiente de documentos uma tarefa altamente complexa. Os atuais tratamentos de busca sÃo pouco eficientes, deixando a obtenÃÃo das informaÃÃes contidas no documento a cargo da atividade humana. Dentro dessa conjuntura, destacam-se os sistemas de ExtraÃÃo de InformaÃÃo para obtenÃÃo de informaÃÃes encontradas em documentos-texto, visando Ã realizaÃÃo de um processamento posterior. PorÃm, tais sistemas ainda sÃo muito difÃceis de ser desenvolvidos, exigindo conhecimentos de especialistas em InteligÃncia Artificial e no domÃnio dos documentos a serem analisados. Tal complexidade estimulou as pesquisas de sistemas, cada vez mais, genÃricos para os mais variados domÃnios de textos simples e HTML. Contudo, para diferentes fontes de entrada e saÃda e formatos de documentos utilizados, pouco ou nenhum cuidado vem sendo dado em relaÃÃo Ã flexibilidade e extensibilidade desses sistemas. Esta dissertaÃÃo propÃe um framework, baseado em XML, para o desenvolvimento de sistemas de extraÃÃo capazes de lidar com diferentes formatos de entrada e saÃda. Esses formatos representam as funcionalidades especÃficas, implementadas para cada uma de suas instÃncias, enquanto as funcionalidades reutilizadas no domÃnio do problema sÃo definidas pelo algoritmo de extraÃÃo empregado. Dentre as diversas tÃcnicas de extraÃÃo de informaÃÃes e aprendizagem de mÃquinas existentes, foi usada uma abordagem semi-automÃtica baseada no algoritmo de induÃÃo definido no STALKER. Experimentos efetuados sobre artigos cientÃficos mostram que o framework proposto Ã aplicÃvel aos formatos de entrada PDF, PS, DOC, RTF e HTML; obtendo-se resultados satisfatÃrios quando comparados aos de sistemas jÃ consolidados

Um Framework para extraÃÃo de informaÃÃes: uma abordagem baseada em XML

AUTOR(ES)

DATA DE PUBLICAÇÃO

RESUMO

ASSUNTO(S)

ACESSO AO ARTIGO

Documentos Relacionados