[Homepage]|[Publications]|[Skills]|[Personality]|[Hobbies]|[Contact]
Résumé de la thèse de doctorat de Jean-Pierre Norguet
Résumé de la thèse de doctorat de Jean-Pierre Norguet "Semantic Analysis in Web Usage Mining" nominée au prix FNRS-IBM Belgium 2007.
Titre du travail : Analyse sémantique de l’audience web – Semantic Analysis in Web Usage Mining. Auteur : Jean-Pierre Norguet. Thèse de doctorat présentée en mars 2006, Faculté des sciences appliquées, Université Libre de Bruxelles.
Le travail de thèse porte sur l'analyse de l'utilisation de sites web avec une approche originale qui se fonde sur le contenu exact des pages fournies comme résultat par les serveurs web et l'analyse relativement à une taxonomie de concepts représentant le domaine couvert par le site web. Travailler sur le contenu des pages renvoyées par les serveurs web permet une analyse plus riche que sur de simples méta données associées à l'utilisation des pages. On peut aussi par ce biais analyser le contenu des pages dynamiques. Cette analyse nécessite la mise en œuvre de méthodes variées pour collecter un ensemble suffisamment grand de pages résultats, ainsi que la mise en œuvre de méthodes d'analyse du contenu de ces pages.
Le domaine de recherche à laquelle la thèse contribue est le web usage mining, un sous domaine du web mining, lui-même sous domaine du data mining (fouille de données). La particularité du web usage mining est de s'intéresser aux données d'utilisation du site web. La fouille de ces données permet de dégager des schémas d'utilisation permettant de modéliser les besoins des visiteurs du site. L'intérêt principal des modèles dégagés par ce type de fouille de données est qu'ils permettent d'adapter le contenu du site web aux attentes des visiteurs.
L'apport principal de la thèse est l'ajout d'une dimension sémantique globale à la modélisation des besoins des visiteurs. A l'heure actuelle, les techniques de web usage mining se contentent de fournir des modèles sémantiques individuels. Parmi ces techniques, le résultat le plus avancé consiste à modéliser les besoins d'un visiteur prédéterminé par un ensemble de mots-clés. La représentation des besoins fournie par ce type de résultat ne porte donc pas sur l'ensemble des visiteurs du site.
Outre ces résultats, les outils de web usage mining existants fournissent des résultats d'audience par adresse de page ou par groupe d'adresses de pages. Ces résultats ne prennent pas correctement en compte les pages traitant de plusieurs sujets, les pages générées dynamiquement et les pages évoluant dans le temps. Dans le web d'aujourd'hui, où les pages présentent des contenus variés, où les technologies de publications des pages sont en majorité dynamiques, et où le contenu est alimenté par des bases de données évolutives, des résultats se basant uniquement sur les adresses de pages ne conviennent pas à la plupart des sites web.
Les résultats actuels étant limités à des résultats d'audience par visiteur ou par page, les décisions basées sur ces résultats ont un impact limité. Pour dépasser ces limitations, la thèse propose de fournir des résultats portant sur l'ensemble des visiteurs du site et décrivant l'audience obtenue par l'ensemble des sujets du site. De tels résultats peuvent être exploités par les décideurs et par les concepteurs, permettant ainsi aux décisions basées sur ces résultats d'avoir un impact de plus haut niveau, portant sur l'ensemble des visiteurs du site et sur l'ensemble du contenu.
Pour obtenir ces résultats, des techniques issues de différents secteurs de l'informatique ont été mises en oeuvre : technologies web, analyse linguistique, intelligence artificielle, méthodes de développement logiciel, algorithmes de text mining, de data mining et de data warehousing, ainsi que des éléments d'analyse sémantique. Grâce à ces techniques combinées en chaîne, nous pouvons collecter l'ensemble des pages résultats renvoyées par le serveur web, en extraire le contenu textuel, isoler et regrouper selon une taxonomie les mots-clés représentatifs du domaine de connaissance du site, et enfin calculer pour chaque sujet du site le nombre d'occurrences de mots-clés affichés sur les écrans des visiteurs. La faisabilité de ces résultats a été démontrée dans la thèse par le développement complet de la chaîne de traitements.
L'implémentation de la chaîne de traitements en un prototype fonctionnel (WASA ; Web Audience Semantic Analysis) a été expérimentée sur des sites web réels. La taille des sites web d'expérimentation variait de moyen (site du département informatique) à très grand (site de l'université). L'expérimentation a consisté à comparer les résultats obtenus par WASA avec Google Analytics dans un cadre particulier où la comparaison de ces deux outils très différents a un sens. L'analyse des résultats comparatifs montre l'intérêt d'une approche sémantique. L'influence de la taxonomie utilisée pour interroger le système a aussi été étudiée de façon expérimentale et semble très importante sur les résultats obtenus. C'est là d'ailleurs une faiblesse de l'approche qui se montre très sensible à la taxonomie utilisée.
Pour pallier cette sensibilité à la taxonomie utilisée, nous avons développé une méthode complémentaire d'interrogation basée sur la classification des pages. La classification des pages, mettant en oeuvre des méthodes de text mining et d'apprentissage machine, se base sur une classification de documents couvrant le domaine de connaissance du site. De tels ensembles de documents peuvent se trouver au sein de l'organisation, ou en dehors de celle-ci. Cette méthode de classification des pages n'est pas sensible à une quelconque taxonomie. En revanche, nos premières expérimentations montrent une sensibilité des résultats aux méthodes d'apprentissage machine. Cette sensibilité peut néanmoins être limitée par un réglage plus fin des méthodes de text mining. La méthode de classification des pages et la méthode basée sur l'utilisation d'une taxonomie forment ainsi une alternative valable d'interrogation du système.
L'implémentation et l'expérimentation de cette chaîne de traitement font ressortir de la thèse non seulement des idées de résultats nouveaux mais aussi une technique complète exploitable en pratique pour la plupart des sites web. En effet, les résultats de la thèse s'appliquent à la fois aux sites web proposant des pages d'information statiques et aux sites web générant dynamiquement des pages à partir de scripts. Sont ainsi visés à la fois les sites proposant de l'information et les sites proposant des services applicatifs, comme des services de vente en ligne, ce qui couvre pratiquement l'entièreté des sites web d'Internet. Le champ d'application des résultats de la thèse est donc extrêmement large et est porté à augmenter de manière proportionnelle au développement d'Internet.
Les contributions originales de la thèse sont de plusieurs types. Tout d'abord, les résultats d'audience portent sur l'ensemble des visiteurs et du contenu du site. Ces résultats sont liés à une taxonomie - ou à une classification de documents - représentant le domaine de connaissance du site. Un modèle multidimensionnel de data mining sous-tend le calcul des occurrences de mots-clés au sein de la taxonomie. Enfin, la faisabilité de l'approche a été démontrée par une implémentation et une expérimentation de la chaîne complète de traitements.
De plus, le développement de méthodes de collecte des pages a ouvert un nouveau domaine de recherche en web usage mining : l'output page mining. L'output page mining, qui se positionne comme une nouvelle méthode de web usage mining, consiste à collecter et à analyser l'ensemble des pages résultats issues d'un serveur web. Les méthodes d'output page mining développées dans la thèse permettent de collecter les pages résultats à plusieurs endroits de l'environnement web, allant du serveur web au navigateur, en passant par le réseau physique. L'implémentation d'un prototype fonctionnel de chacune de ces méthodes a permis d'en démontrer la faisabilité et la capacité de traiter de grands volumes de données.
L'output page mining, avec son ensemble de méthodes originales et expérimentées, a été explicitement reconnu comme nouveau domaine de recherche par les experts de la communauté scientifique lors d'un important symposium ACM en informatique appliquée et fouille de données. Les contributions de la thèse ont également été reconnues dans plusieurs conférences internationales de recherche avec comité de relecture. Les actes de ces conférences ont été publiées par des éditeurs scientifiques majeurs comme IEEE, ACM et Springer Verlag. Un journal international de recherche avec comité de relecture a également reconnu la méthode alternative de classification des pages. Enfin, Prentice Hall et IBM Redbook Press ont publié deux livres décrivant les méthodes de développement logiciel mis en oeuvre dans l'implémentation de la chaîne de traitements.
Comme nous l'avons vu dans ce résumé, le travail de thèse a apporté au web usage mining plusieurs contributions : (1) l'output page mining comme nouveau domaine de recherche, (2) des résultats d'audience portant sur l'ensemble du contenu d'un site web et sur l'ensemble de ses visiteurs, (3) une chaîne de traitements implémentée et expérimentée permettant d'obtenir ces résultats, (4) une méthode d'interrogation basée sur une taxonomie de mots-clés, et (5) une méthode d'interrogation alternative basée sur une classification de documents. L'intérêt de ces contributions, leur originalité et les possibilités d'applications à la plupart des sites web d'Internet ont été reconnues par plusieurs publications scientifiques internationales spécialisées avec comité de relecture.
On peut donc dire que ce travail de thèse apporte aux sciences de l'informatique et à ses applications une contribution à la fois originale et approfondie.
Retour aux publications de Jean-Pierre Norguet