These-LEFEBVRE

Nom: 
LEFEBVRE
Prénom: 
Guillaume
Spécialité de la thèse: 
Titre de la thèse: 
Apprentissage et exploitation de représentations sémantiques pour la classification multi-label hiérarchique et la recherche d’objets de formation dans le domaine de l’éducation et de la formation professionnelle
Résumé en français: 

Inokufu est née de la rencontre de deux expertises portées par les cofondateurs : l'andragogie et les data sciences. L’idée est de combiner le traitement algorithmique massif des données éducatives avec un système d’audits humains, pédagogique et métier. Malgré le surcoût significatif que cela représente, les données éducatives ainsi traitées sont de meilleure qualité et peuvent être utilisées pour développer des algorithmes de catégorisation et de recommandation par Machine Learning (ML), spécifiques au domaine de l’éducation et de la formation professionnelle. Inokufu s’inscrit donc dans une vision globale d’analyse de ses données avec des techniques de data mining et d’apprentissage automatique pour l’aide à la décision au sens large.

L'objectif principal de ce projet de thèse est d'explorer, d'adapter et de développer des méthodes avancées pour la classification multi-label hiérarchique et la recherche d'objets de formation (Learning Object, LO), tout en répondant aux spécificités du domaine éducatif. En particulier, cette thèse se concentre sur l'apprentissage de représentations sémantiques adaptées à ces tâches, en s'appuyant sur des méthodes de Traitement Automatique des Langues (TAL) adaptés aux nuances linguistiques et sémantiques propres au domaine.

Étant donné la nature complexe de ces données, les besoins exprimés par Inokufu couvrent donc les aspects suivants :

1. Capacité de traiter des terminologies spécialisées : les textes issus du domaine de l'éducation et de la formation professionnelle utilisent des termes spécifiques souvent absents des corpus généraux. Il est essentiel de disposer d'un modèle capable de comprendre et d'exploiter ces terminologies spécialisées, garantissant ainsi que les contenus soient correctement représentés et recherchés. Cela améliore la précision des correspondances entre l'offre de formation et les besoins exprimés par les utilisateurs.
2. Classification hiérarchique et structurée des contenus : les données éducatives et professionnelles se caractérisent par des hiérarchies complexes (compétences, certifications, parcours de formation). Afin de pouvoir naviguer efficacement dans ces structures et aider les utilisateurs à trouver les ressources adéquates, il est crucial d'avoir une classification qui respecte et reflète ces hiérarchies. La solution doit permettre de classifier les contenus de manière à préserver les relations entre niveaux (par exemple, des catégories générales et leurs sous-thèmes).
3. Efficacité de la recherche sémantique : pour améliorer l'expérience des utilisateurs, la recherche d'objets de formation doit aller au-delà de la simple recherche par mots-clés. Il est indispensable d'implémenter une recherche sémantique qui soit capable de comprendre les intentions des utilisateurs, même lorsque ceux-ci utilisent des termes approximatifs ou des expressions variées pour décrire leurs besoins.

Pour répondre à ces besoins, deux contributions majeures ont été développées dans cette thèse :

1. BERTEPro : un nouveau cadre de représentation sémantique adapté aux textes du domaine de l'éducation et de la formation professionnelle. En combinant une phase de pré-entraînement spécifique sur des corpus du domaine avec un affinage sur des tâches générales, BERTEPro permet de mieux saisir les subtilités sémantiques et de produire des représentations précises et pertinentes, améliorant ainsi la capacité à classifier et à rechercher des contenus pédagogiques.
2. HMCCCProbT : un cadre de classification hiérarchique multi-label, capable de modéliser les dépendances locales et globales au sein des structures hiérarchiques de manière efficace. En utilisant un mécanisme de transmission probabiliste, HMCCCProbT permet une précision accrue tout en évitant les erreurs liées à la propagation de décisions erronées à chaque niveau de la hiérarchie.

Ces deux approches complémentaires ont été validées par des expériences sur des ensembles de données réelles issues du domaine de l'éducation et de la formation professionnelle. Elles ont démontré leur capacité à améliorer la qualité de la classification et de la recherche d'objets de formation dans un contexte éducatif.

Université de rattachement: 
Université Lyon 1
Laboratoire de rattachement: 
Directeur de thèse: 

Alexandre AUSSEM

Premier coencadrant: 

Haytham ELGHAZEL

Cifre: 
Oui
Date de soutenance: 
17 décembre, 2024
Composition du jury: 

SMAIL TABBONE Malika, Professeure, Université de Lorraine, Rapporteure
MEPHU NGUIFOU Engelbert, Professeur, Université d’Auvergne, Clermont-Ferrand, Rapporteur
AZZAG Hanene, Professeure, Université Sorbonne Paris Nord, Examinatrice
KHEDDOUCI Hamamache, Professeur, Université Claude Bernard Lyon 1, Examinateur
BENAMARA Farah, Professeure, Université Paul Sabatier de Toulouse, Examinatrice
AUSSEM Alexandre, Professeur, Université Claude Bernard Lyon 1, Directeur
ELGHAZEL Haytham, MCF, Université Claude Bernard Lyon 1, Co-encadrant
SONNATI Matthieu, PDG Inokufu, Invité


Dernière mise à jour : 15 janvier, 2025 - 08:53