[Homepage]|[Publications]|[Skills]|[Personality]|[Hobbies]|[Contact]

Rapport de thèse de doctorat de Jean-Pierre Norguet

Rapport du jury sur la thèse de doctorat de Jean-Pierre Norguet "Semantic Analysis in Web Usage Mining"

Membres du jury : Esteban Zimanyi (promoteur), Hugues Bersini (président), Roel Wuyts (secrétaire), Gianluca Bontempi et Marie-Christine Rousset (rapporteur extérieur). Date de défense publique : 20 mars 2006.

Le travail de thèse porte sur l'analyse sémantique de l'audience de sites web avec une approche originale qui se fonde sur le contenu des pages fournies comme résultat par les serveurs web et l'analyse relativement à une taxonomie de concepts représentant le domaine couvert par le site web.

Travailler sur le contenu des pages renvoyées par les serveurs web permet une analyse plus riche que sur de simples métadonnées associées aux pages. On peut aussi par ce biais analyser le contenu des pages dynamiques. Par contre, cela nécessite la mise en oeuvre de méthodes variées pour collecter un ensemble suffisemment grand de pages résultats, ainsi que de méthodes d'analyse du contenu de ces pages.

L'analyse qui est proposée de ces pages est originale car elle remplace les métriques habituelles basées sur la fréquence de termes par des métriques tenant compte de la position des termes dans une taxonomie du domaine. Ces nouvelles métriques sont susceptibles de fournir des informations de plus haut niveau aux concepteurs et aux décideurs.

L'intérêt de cette thèse est que l'approche originale qui a été proposée a été implémentée dans une chaîne de traitement complète (WASA) et expérimentée. L'expérimentation a consisté à comparer les résultats obtenus par WASA avec Google Analytics dans un cadre particulier où la comparaison de ces deux outils très différents a un sens. L'analyse qui est faite des résultats comparatifs montre l'intérêt d'une approche sémantique, en tout cas dans ce cadre particulier. L'influence de la taxonomie utilisée a aussi été étudiée de façon expérimentale et semble très importante sur les résultats obtenus. C'est là peut-être une faiblesse de l'approche qui se montre très sensible à la taxonomie utilisée.

Cette thèse présente une approche originale et une expérimentation qui pourrait être plus poussée mais qui est déjà convaincante. Cela a été rendu possible grâce à l'implémentation d'un prototype complet (WASA) dont le développement a demandé du temps et requis des compétences variées.

Le choix de Mr. Norguet de favoriser le développement complet de le chaîne de traitements ne pouvait se faire décemment qu'au détriment d'un approfondissement de chacun des maillons de la chaîne : technologies web, technologie de développement logiciel, technologie de text mining et d'analyse sémantique, qui souffre parfois d'un apport quelque peu superficiel. En contrepartie, le travail démontre une maîtrise évidente d'un nombre considérable de méthodologies et technologies, balayant de nombreux secteurs pourtant très diversifiés de l'univers informatique d'aujourd'hui : des technologies web aux algorithmes de traitement de données et d'analyse linguistique. Ce travail a donné lieu à un certain nombre de publications.

Le jury a donc considéré qu'il s'agit d'un bon travail de thèse et s'est prononcé comme favorable à l'obtention du doctorat.


Retour aux publications de Jean-Pierre Norguet