Georgiev

Nom: 
Georgiev
Prénom: 
Nikolay
Spécialité de la thèse: 
Titre de la thèse: 
Extraction de données à partir de pages Web pour la mesure du comportement des internautes
Résumé en français: 

Si l’information disponible sur Internet augmente de manière exponentielle, elle reste aujourd'hui largement inexploitable par les moyens informatiques en raison de sa nature textuelle. Certes, à moyen terme, la migration vers le format XML devrait permettre un accès plus facile, en particulier grâce aux recherches portant sur le web sémantique. Cependant, aujourd’hui la problématique "Comment accéder à l’information disponible sous forme de pages HTML/XHTML ?" garde toute sa pertinence, et représente un enjeu très important pour les années à venir. La conception et le développement de systèmes d’extraction de données reste donc une nécessité forte, en particulier pour des entreprises telles que Nielsen//NetRatings dont l'objet est d'évaluer finement le comportement des internautes à partir de panels de centaines de milliers de personnes, ce qui représente des dizaines de millions de pages visitées à analyser. Plus précisément, la société Nielsen//NetRatings souhaite pouvoir effectuer des analyses quantitatives portant sur les transactions électroniques passées sur des sites de services en ligne (/sites e-commerce, banques en ligne, réservation en ligne, enchères en ligne, etc/.). Nous nous intéressons donc au problème de l’identification de ce type de pages et de la récupération de données pertinentes, afin de les agréger et d’élaborer des statistiques concernant, par exemple, les montants dépensés par les internautes en ligne, les produits achetés, les services utilisés. Les solutions existantes basées sur des technologies de TAL (Traitement Automatique du Langage) ou d’apprentissage automatique restent souvent inadaptées, car elles ne sont ni assez performantes ni assez précises pour satisfaire les besoins et les contraintes des entreprises. Récemment des nouveaux systèmes d’extraction ont essayé de remédier à cela en s’appuyant sur la structure HTML des pages Web. Cependant, il reste très difficile de trouver une solution qui offre un bon compromis entre la robustesse, la performance, la précision et la simplicité d’utilisation. Notre recherche a consisté à concevoir des outils robustes, fiables et faciles d’utilisation permettant d’accéder aux contenus textuels des pages Web. La nouveauté apportée par notre approche réside dans la méthodologie d’extraction qui est basée sur la reconnaissance progressive de sous-structures nommées « structures locales » et sur le concept de « couple d’information ». Le « couple d’information » représente une règle d’extraction liant (/à travers une structure HTML atomique/) des repères visuels flottants avec une donnée recherchée (/définie par son format et sa cardinalité/). Nous procédons en associant les pages web analysées à des domaines d’extraction thématiques. Une fois la page reconnue comme appartenant à un domaine thématique, l’extraction est conditionnée par les connaissances basiques prédéfinies (/le format de données, les dépendances entre les données, leur cardinalité, etc./). Toutes les variables nécessaires à la reconnaissance d’une page et à l’extraction des données sont regroupées dans un patron pour une application à grande échelle. Les expressions d’extraction composant le patron sont générées d’une manière semi-automatique à travers une interface graphique dans une syntaxe XPath améliorée par l’utilisation d’expressions régulières. Pour aider l’opérateur à construire ces patrons, nous avons mis en œuvre un module de génération de propositions basé sur des techniques de classification automatique qui facilite son travail en l’assistant dans son choix. Cette aide est induite à partir des choix antérieurs de l’utilisateur, de telle sorte que le travail de l’opérateur se limite seulement à des manipulations visuelles. Afin de valider notre démarche d’extraction, nous avons défini une méthodologie de comparaison avec laquelle nous avons évalué notre système par rapport au système utilisé jusque là par Nielsen//NetRatings (Acquire, qui nous a servi de référence). Les résultats ont démontré que notre système est en moyenne plus performant que Acquire. Cela a permis sa mise en service. Cette mise en production a été précédée par une modélisation et implémentation d’un moteur d’extraction distribué, menées en collaboration avec une équipe de 5 ingénieurs situés aux Etats-Unis. Une architecture multi- machine a été définie. Elle comporte un système de gestion de tâches, basé sur PL/SQL et Oracle, ainsi que plusieurs « processeurs » déployés sur des machines différentes faisant appel à notre API Java pour l’extraction elle-même. En aval, un traitement a été mis en place pour assurer l’interprétation, la reconstitution et la validation des données extraites. La plateforme de production est dotée d’une interface utilisateur dans laquelle l’opérateur peut gérer les patrons existants, les modifier, mais également sélectionner des pages pour en créer de nouveaux.

Université de rattachement: 
Université de Paris 6
Laboratoire de rattachement: 
Cifre: 
Non
Date de soutenance: 
21 décembre, 2006
Lieu et heure de la soutenance: 

Paris


Dernière mise à jour : 17 juin, 2009 - 16:42