Offre de thèse CIFRE, Kelis / LIP6, Paris

Offre CIFRE : Modèles de génération et d'analyse des traces pédagogiques

Direction de thèse : Vanda Luengo (LIP6/UPMC), François Bouchet (LIP6/UPMC), Thibaut Arribe (Kelis)

Laboratoire : LIP6 (UMR 7606) – Université Pierre et Marie Curie.https://www.lip6.fr/recherche/team.php?acronyme=MOCAH

Contexte : Les chaînes éditoriales numériques sont des outils qui accompagnent la production documentaire de masse. Pour y parvenir, elles s'appuient sur une mise en évidence des structures documentaires présentes dans un corpus. Ces structures sont représentées dans un modèle documentaire qui contrôle la validité des documents. La publication des documents s'opère par des algorithmes de transformation qui s'appuient sur le modèle pour publier des documents dans des formats standards comme PDF ou HTML.

En travaillant uniquement sur des structures et en automatisant la mise en forme, les chaînes éditoriales permettent la séparation entre le fond et la forme - ou entre le fonds documentaire et ses formes (Bachimont & Crozat, 2004). Elles facilitent ainsi une automatisation des manipulations documentaires.

Scenari (Crozat 2007) est une suite logicielle permettant la conception et l'exploitation de chaînes éditoriales. La suite Scenari contient à la fois

  • SCENARIbuilder, un logiciel de conception de chaînes éditoriales selon une méthode d'ingénierie dirigée par les modèles ;

  • SCENARIchain, un logiciel exploitant le cœur produit par SCENARIbuilder pour instancier une chaîne éditoriale fonctionnelle.

Cette méthode de conception permet à la société Kelis de proposer une offre de services en ingénierie documentaire souple et compétitive, exclusivement basée sur l'exploitation des technologies Scenari. Pour l'exemple, on pourra citer :

  • la production des contenus du site service public1,

  • la production des contenus pédagogiques de l'afpa2.

Depuis 2014, Kelis poursuit ses travaux de recherche et développement en intégrant à la suite logicielle des outils de publication (sur le web) et d'exploitation des documents produits par des chaînes éditoriales Scenari. Ainsi, là où une chaîne éditoriale classique s'arrête à la production de documents web, la suite Scenari vise à instrumenter l'exploitation de ces documents en ligne.

Pour l'exemple, on pourra citer :

  • Vocabula3, un lexique accessible produit par l'AFPA ;

  • ISIPAD4, une plateforme d'information sur la chirurgie ambulatoire dans les hauts de France ;

  • Faq2Sciences5, une plateforme pédagogique pour faciliter le positionnement et l'auto-évaluation des élèves bacheliers avant leur entrée à l'université.

Enjeux technologiques : Kelis souhaite enrichir la suite technologique Scenari avec des outils d'analyse des apprentissages. Pour y parvenir, il convient :

  • de développer des modèles de génération de traces propres aux différents types de ressources pédagogiques exploitées (évaluations, interactions entre apprenants, ressources linéaires ou non, etc.)

  • de développer des modèles d'analyse de traces propres aux modalités d'exploitation des ressources pédagogiques et s’adaptant à la granularité des traces disponibles ainsi qu’à l’utilisateur de ces analyses (enseignant, responsable pédagogique, créateur de ressources, apprenant lui-même...)

  • de développer une approche orientée par les modèles pour la conception de ces modèles de génération et d'analyse de traces, à savoir :

    • un langage d'expression des modèles d'émission et d'analyse des traces (métamodèle) ;

    • des modalités techniques de génération et d'analyse des traces (résultat de génération) ;

    • les algorithmes de transformation permettant de produire cette génération.

Enjeux scientifiques : Un premier enjeu scientifique de la thèse vise à déterminer quels modèles de génération de traces et donc quelles modalités d'exploitation de ces traces sont utiles en fonction des modalités pédagogiques des différentes plateformes produites avec des chaînes éditoriales (positionnement, SPOC/MOOC, Social Learning, jeux sérieux). Il s'agit ici d'expérimenter plusieurs modèles de génération de traces afin de proposer un modèle générique et adaptable et donc de concevoir l'approche orientée par les modèles évoquée comme enjeu technologique.

Au delà du cœur scientifique et technologique, la thèse s'attachera à qualifier l'opportunité de l'approche technologique des chaînes éditoriales pour généraliser la création, le suivi et l'analyse de données apprenants quelles que soient les modalités d'apprentissage.

Un des problèmes majeurs de la communauté fédérée autour des thèmes des learning analytics et de la fouille de données éducatives (EDM – Educational Data Mining) est relatif à la réplicabilité des travaux à des contextes connexes. Ainsi, dans un article de synthèse sur l'évolution de ce jeune champ de recherche, Romero et Ventura (2013) concluaient sur le fait que «les résultats de la recherche en EDM sont typiquement obtenus dans le contexte étroit de projets de recherche ou d'environnements éducatifs donnés, alors qu'il est nécessaire d'obtenir des résultats plus généraux (...) par exemple si un modèle prédictif est toujours fiable lors de son utilisation dans un contexte différent». L'approche généralement considérée pour répondre à cette problématique passe par la capitalisation des traces et/ou des processus d'analyse. Ainsi, DATAShop (Koedinger et al. 2010) permet de partager des traces (données d'interaction, modèles d'apprenants et résultats d'analyse), notamment liés à l'utilisation de système de tuteurs intelligents développés au Pittsburgh Science of Learning Center. Au niveau français, le projet Mulce (Reffay et al. 2012) poursuivait un objectif comparable, mais surtout depuis 2014 le projet ANR HUBBLE tente d'aller plus loin dans cette approche en partageant également les processus d'analyse afin notamment de «permettre la reproductibilité d'analyses sur plusieurs corpus» (Luengo 2014). Toutefois dans chacun de ces cas, si le partage de données et de processus facilite les comparaisons d'algorithmes par exemple, il reste difficile de comprendre pourquoi un processus d'analyse appliqué à deux jeux de données différents recueillis dans des contextes plus ou moins similaires ne donne pas toujours les mêmes résultats. Dans ce contexte, l'exploitation de traces générées à l'aide de modèles permettrait des analyses facilement comparables car issues de plateformes dont les différences sont connues et parfaitement identifiées par nature, puisqu'elles proviendraient d'instanciations différentes d'une même chaîne éditoriale. Une telle approche permettrait donc d'améliorer la détermination de la robustesse des processus d'analyse utilisés, et la compréhension des paramètres qui permettent à un processus d'analyse d'être pertinent ou non.

Dans le contexte de la thèse, le programme de travail inclura donc une phase d’analyse de l’état de l’art autour des systèmes de traces orientés éducation existants (notamment le format TinCan/xAPI) afin de guider le choix. Une fois le modèle choisi et implémenté, le candidat mènera une étude comparative d’au moins deux plateformes implémentant le modèle de génération de traces choisi afin d’analyser les données recueillies et de contraster la nature et les interprétations possibles de celles-ci, par le biais d’algorithmes de fouille de données (e.g. analyse de séquences, clustering). La publication des résultats obtenus au cours de la thèse au sein de conférences nationales (EIAH), européennes (ECTEL) et internationales (LAK, EDM, AIED) sera fortement encouragée. Dans le cadre de ces travaux de thèse, le candidat retenu bénéficiera des liens possibles avec d’autres projets orientés vers l’analyse de traces actuellement portés par l’équipe MOCAH du LIP6 : projet ANR Hubble porté par Vanda Luengo, analyse de traces du jeu serieux Prog&Play par Mathieu Muratet, analyse de traces de MOOC (thèse en cours).

Mots clés : chaine éditoriale, méta-modèles, traces d’apprentissage, analyse de traces

Pré-requis : Master 2 en informatique ou en ingénierie pédagogique – une expérience avec les chaînes éditoriales Scenari sera un atout apprécié.

Début de thèse : septembre 2017

Contacts : thibaut.arribe@kelis.fr ; francois.bouchet@lip6.fr

Dossier de candidature : Lettre de motivation, CV, résultats de licence et master.

 


Dernière mise à jour : 10 avril, 2017 - 11:55