Extraction dâinformation adaptative de pages web par induction supervisÃe dâextracteurs

AUTOR(ES)
DATA DE PUBLICAÇÃO

2009

RESUMO

Extraction d Information (EI) comprend des techniques et algorithmes rÃalisant deux tÃches importantes: l identification des informations dÃsirÃes, pertinentes à partir de documents structurÃs ou non structurÃs, et le stockage de ces informations sous une forme appropriÃe visant lâusage future. Ce prÃsent travail se concentre sur les systÃmes d EI adaptatifs qui peuvent Ãtre appliquÃs sur de nouveaux domaines par l apprentissage artificiel (machine learning) en utilisant une collection de documents en entrÃe. En particulier, des techniques d induction automatique d extracteurs sont examinÃes pour l extraction d information qui repose sur l exploitation de rÃgularitÃs structurales prÃsentes dans ces documents. Wrappers (extracteurs) sont dÃfinis comme des procÃdures pour l extraction d informations d un document quelconque. L induction d extracteurs est une technique qui utilise des algorithmes d apprentissage automatique pour la conception d extracteurs à partir d un corpus prÃalablement annotÃ, et qui donne de bons rÃsultats lorsqu ils sont appliquÃs sur des documents structurÃs, semistructurÃs et en langage naturel (libre). Nous proposons dans ce travail un systÃme dâEI par induction supervisÃe dâextracteurs reposant sur l algorithme Boosted Wrapper Induction (BWI) dans lequel l algorithme d AdaBoost est employà pour gÃnÃrer une procÃdure d extraction gÃnÃrique qui combine un ensemble d extracteurs spÃcifiques par vote pondÃrÃ. D autres auteurs ont Ãtudià comment la technique de boosting contribue au succÃs de l algorithme de BWI et ont examinà sa performance vers la direction ambitieuse de l employer comme mÃthode d IE pour les documents en langage naturel. Ce fait a motivà l inclusion d Ãtiquetage POS (Parties du Discours) dans le prÃtraitement dans notre systÃme des documents. Afin d Ãvaluer la performance de ce systÃme, plusieurs expÃriences ont Ãtà menÃes sur trois corpora dÃsignÃs pour la tÃche d extraction d information classique par slot. D autres expÃriences ont Ãtà Ãgalement rÃalisÃes en utilisant plusieurs combinaisons d attributs avec l objectif d Ãtudier systÃmatiquement leurs effets sur la performance de l algorithme d apprentissage. Les rÃsultats obtenus empiriquement ont montrà que les performances de notre systÃme Ãtaient comparables à d autres systÃmes de l Ãtat de lâart.

ASSUNTO(S)

extraÃÃo de informaÃÃo inteligÃncia artificial induÃÃo de wrappers pos tagging pos tagging boosting classifiaÃÃo supervisionada boosting classifiaÃÃo supervisionada inteligÃncia artificial aprendizagem de mÃquina ciencia da computacao extraÃÃo de informaÃÃo induÃÃo de wrappers aprendizagem de mÃquina

Documentos Relacionados