Sciences et Technologies
de l´Information et
de la Communication pour
l´Éducation et la Formation
 

Volume 29, 2022
Article de recherche

Numéro Spécial
Sélection de la conférence
EIAH 2021

Rétroactions dans un environnement numérique d’apprentissage : modèle de description et décision

Sébastien JOLIVET (IUFE, UNIGE et LDAR, Université de Paris), Amel YESSAD, Mathieu MURATET (LIP6, Sorbonne Université), Elann LESNES (LDAR, Université Rouen-Normandie), Brigitte GRUGEON-ALLYS (LDAR, Université Paris-Est Créteil), Vanda LUENGO (LIP6, Sorbonne Université)

RÉSUMÉ :  L’article introduit un modèle de description des rétroactions épistémiques et un modèle informatique de décision de ces rétroactions. Le modèle de description est fondé sur des connaissances didactiques et a pour objectif d’être suffisamment explicite pour aider à la décision automatique des rétroactions. Le modèle informatique de décision combine des connaissances expertes et un algorithme d’apprentissage par renforcement. La faisabilité de l’approche est évaluée avec la réification du modèle et son intégration à une implémentation du modèle décisionnel.

MOTS CLÉS : modèle de rétroaction épistémique, modèle informatique de décision de rétroaction, apprentissage par renforcement

ABSTRACT : This paper introduces a model for describing epistemic feedbacks and a computer model for deciding these feedbacks. The description model is based on didactic knowledge and aims to be sufficiently explicit to allow the automatic decision-making of feedbacks. The computational decision model combines expert knowledge and a RL algorithm. Initial evaluations of the description model were carried out to verify its descriptive capacity. In addition, the reification of the model and its integration into an implementation of the decision-making model made it possible to show the feasibility of the approach.

KEYWORDS : epistemic feedback model, computer model of feedback decision, reinforcement learning

 

1. Introduction

Les rétroactions jouent un rôle important tout au long de l’apprentissage (Hattie et Timperley, 2007), (Shute, 2008). Du point de vue des environnements informatiques pour l’apprentissage humain (EIAH) ces rétroactions peuvent prendre différentes formes (réponse correcte, rétroaction motivationnelle, vérification, explication de l’erreur, etc.) et intervenir à différents moments de l’interaction. Par ailleurs, plusieurs travaux cherchent à classer les rétroactions (produites pas le système ou l’enseignant) à des fins explicatives ou d’aide pour l’enseignant. Cependant, ces différents travaux ne permettent pas de décrire le contenu de la rétroaction du point de vue des connaissances en jeu d’apprentissage. Enfin, il n’y a pas de véritable consensus sur les choix des rétroactions pour avoir un effet sur l’apprentissage.

Par ailleurs, les techniques informatiques pour produire des rétroactions adaptées sont variées : production des règles, réseaux bayésiens, traitement automatique de la langue, etc. (Bimba et al., 2017). Ces méthodes symboliques basées sur l’expertise humaine sont complexes à mettre en place et difficiles à faire évoluer dynamiquement, au fil des interactions avec les apprenants. Elles peuvent être combinées avec des méthodes numériques pour permettre une meilleure évolution dans le temps et une meilleure adaptation aux profils des apprenants.

Ainsi, l’objet de cet article est de présenter un modèle de description des rétroactions épistémiques et un système de décision de ces rétroactions pour des environnements d’apprentissage numériques. Nous débutons en section 2 par un état de l’art qui nous permet de mettre en évidence différents verrous scientifiques et solutions liés aux rétroactions, en particulier : 1) comment décrire les rétroactions épistémiques en se fondant sur des connaissances didactiques et 2) comment modéliser un système décisionnel calculable s’appuyant à la fois sur cette description, sur des hypothèses didactiques relatives à la rétroaction et sur des connaissances issues des données d’interaction entre l’apprenant et le système.

Nous présentons en section 3 notre modèle de description fondé sur des connaissances didactiques qui sont également introduites. Puis nous abordons en section 4 la question de la décision des rétroactions, en tant que problème de décision dans l’incertain.

Dans la section 5, nous présentons les premières évaluations du modèle de description ainsi qu’une première preuve de concept, ou démonstration de faisabilité, dans l’étude du cas Mindmath, qui permet de mettre en relation le modèle de description avec le modèle de décision.

La conclusion, en section 6, nous permet alors d’aborder les limites et les perspectives ouvertes par ce travail, en particulier l’adéquation du modèle de description proposé par rapport aux questions initiales et les difficultés soulevées par la production effective des rétroactions.

2. État de l’art et verrous scientifiques

De façon générale, la rétroaction peut être définie comme une intervention d’un agent extérieur afin de fournir de l’information concernant des aspects liés à l’exécution d’une tâche (Kluger et DeNisi, 1996, p. 255). Dans cet article nous nous intéressons aux rétroactions dans des situations d’apprentissage où l’apprenant interagit avec un environnement informatique. Nous définissons la rétroaction comme une intervention faite par un système informatique suite à l’exécution d’une tâche d’apprentissage.

2.1. Éléments généraux sur les rétroactions

Une des revues de la littérature sur les rétroactions en situation d’apprentissage (Hattie et Gan, 2011) montre que différentes perspectives psychologiques fournissent des cadres distincts pour décrire différentes visions de l'apprentissage, ainsi que la nature, les caractéristiques et la fonction de la rétroaction.

Tel qu’indiqué par Mory (Mory, 2004, p. 745), les rétroactions peuvent faire référence non seulement à l’exactitude ou non d’une réponse, mais aussi à d’autres informations, telles que la précision de la réponse, l’accompagnement dans la tâche, des conseils plus généraux ou des messages liés à la motivation.

L’effet de ces rétroactions sur l’apprenant est un sujet sur lequel il n’y a pas de consensus.

Cependant, Wisniewski et ses collègues (Wisniewski et al., 2020) signalent dans une revisite de l’article « The power of feedback » (Hattie et Timperley, 2007), que les rétroactions ont un impact plus important sur l’apprentissage que sur la motivation et le comportement. Stobart (Stobart, 2018, p. 46) pointe le fait que l’impact de la rétroaction n’est pas le même selon le niveau, en termes de compétences et d'expérience, de l’apprenant. Par ailleurs, des travaux tels que ceux de Brooks et al. (Brooks et al., 2019) et Small et Lin (Small et Lin, 2018) montrent l’importance de la prise en compte de l’erreur et les diverses formes de cette prise en compte.

2.2. Les rétroactions épistémiques

Nous avons choisi de nous intéresser uniquement aux rétroactions épistémiques, définies comme relatives à la connaissance en jeu dans l’activité (Luengo, 2009, p. 14), ces rétroactions étant choisies et produites par le système informatique. C’est donc pour nous une problématique à la croisée de l’informatique et de la didactique comme l’a formulé Luengo (Luengo 2009, p. 1) : « pour un contenu spécifique, ayant analysé l’activité de l’apprenant, choisir la rétroaction à produire pour faire évoluer cette connaissance de façon optimale (choix du moment, de la nature, de la modalité) ».

2.3. Le choix du moment de la rétroaction

En ce qui concerne le choix du moment, Van Lehn (Van Lehn, 2006) propose de distinguer les rétroactions selon deux types de boucles : boucle interne (inner loop feedback) et boucle externe (outer loop feedback)). La rétroaction en boucle interne est produite pendant la résolution d’une tâche particulière, alors que la rétroaction en boucle externe est produite en ciblant une tâche finale ou un ensemble de tâches. La rétroaction de type boucle interne fournit généralement des informations sur l'exactitude d'une solution (partielle ou non), combinées à des conseils sur la façon de corriger les erreurs et/ou la manière de procéder pour résoudre la tâche en cours. Les tuteurs intelligents sont un exemple classique car ils proposent des rétroactions à chaque étape de résolution. La rétroaction en boucle externe utilise l'état actuel des connaissances de l’apprenant, dans un domaine donné, pour sélectionner les tâches ou activités à proposer pour la suite (VanLehn, 2011). Des effets positifs des rétroactions tant dans des boucles internes (VanLehn, 2011) que dans des boucles externes (Bull et Kay, 2016) ont été mesurés et ces deux types de rétroactions sont implémentés dans des environnements d’apprentissage. Dans notre cas, nous nous intéressons aux rétroactions en boucle interne.

2.4. La nature de la rétroaction

La nature de la rétroaction est relative à l’information qu’elle contient. Ici, nous nous intéressons en particulier aux rétroactions formatives, car elles ciblent le processus d’apprentissage (Shute, 2008, p. 154). Pour ce type de rétroactions plusieurs catégories ont été proposées. Leibold et Schwarz (Leibold et Schwarz, 2015) signalent quatre types de rétroactions selon la nature des informations qu’elles contiennent (feedback correctif - feedback épistémique - feedback suggestif - feedback épistémique et suggestif). Shute (Shute, 2008, p. 160), synthétisant de nombreux travaux, propose de multiples critères qui l’amène à une typologie des rétroactions ordonnées par complexité croissante (No feedback, Verification, Correct response, Try again, Error-flagging, Elaborated, Attribut isolation, Topic Contingent, Response continent, Hints/cues/prompts, Bugs/misconceptions, Informative Tutoring). J. Murray et al. (Murray et al., 2018, p. 86) proposent une taxonomie des rétroactions dans le cadre des rétroactions écrites sur des productions papier d’élèves, afin de pouvoir caractériser leur nature (topic-specific feedback ; corrective feedback ; generic feedback, simple feedback about something correct, simple feedback about something incorrect, complex feedback about something correct, complex feedback about something incorrect, feed-forward feedback, connective feedback, dialogical feedback, personal feedback, positive feedback, negative feedback, nondescript feedback, discours feedback).

Ces distinctions sont intéressantes, mais posent le problème de leur caractère opérationnel lors de la conception. Par exemple, une rétroaction de type « topic specific feedback » pourrait bien être également une rétroaction de type « corrective feedback ». De plus, ces catégories sont souvent produites à posteriori et ne sont pas suffisamment formelles pour les rendre calculables, à partir des connaissances expertes, lors du choix de la rétroaction.

2.5. La modalité de la rétroaction

Enfin, la modalité de la rétroaction fait référence au registre auquel elle fait appel. Celui-ci peut être décrit du point de vue informatique au sens du type de sortie (son, image, écrit), mais peut aussi faire appel à la notion de registre de représentation sémiotique (Duval, 1993) telle qu’utilisée en didactique. Une rétroaction peut, par exemple, mobiliser le registre langue naturelle, le registre algébrique ou le registre figural. Les travaux proposant des taxonomies de rétroactions ne font pas référence à cette dimension.

2.6. Didactique des mathématiques et rétroactions

Les recherches dans le champ de la didactique des mathématiques s’intéressant à la question des rétroactions épistémiques fournies par un environnement informatique sont peu nombreuses.

D’une part, certains environnements informatiques fréquemment utilisés pour l’apprentissage des mathématiques n’incluent pas de rétroactions explicites. En particulier, dans les logiciels de géométrie dynamique, ce sont les règles de la géométrie euclidienne régissant la construction et le déplacement qui fournissent, de facto, des rétroactions, par exemple lors de la déformation d’une figure.

D’autre part, lorsque les environnements informatiques incluent des rétroactions épistémiques explicites, leur conception n’est pas toujours interrogée d’un point de vue didactique, comme le souligne Rezat qui reprend (Dawson et al., 2018) : « in most cases, there is no clear indication of how the feedback inputs (e.g., comments on the assessment performance) are designed to impact on subsequent assessment or how the impact is to be measured » (Rezat, 2021, p. 1434). Cette difficulté est aussi identifiée par McKendree : « the psychological theories that discuss the issue have offered no concrete recommendations about the form or content of feedback in order to be maximally effective. [...] Further, the systems that have been implemented or suggested have offered little evidence that the techniques used actually help the learning process. » (McKendree, 1990, p. 382).

En géométrie comme en algèbre, différents travaux montrent que la conception des rétroactions en lien avec le diagnostic du raisonnement mathématique mené par l’élève est complexe, y compris dans le cadre d’un travail mathématique relativement codifié, voire algorithmique (raisonnement déductif en géométrie, calcul sur les expressions algébriques ou résolution d’équations du premier ou du second degrés). Ainsi, en géométrie, Tessier-Baillargeon, Leduc, Richard et Gagnon comparent onze « systèmes d’aide à la démonstration » (Tessier-Baillargeon et al., 2017). Leur analyse porte notamment sur la composante tutorielle des systèmes et les rétroactions proposées aux élèves et pointe l’importance de l’analyse de l’activité de l’apprenant. Ils notent en particulier que l’aide « à la prochaine étape [...] qui implique que le système tutoriel puisse identifier la solution travaillée par l’élève pour le guider vers la prochaine action à poser » (Tessier-Baillargeon et al., 2017, p. 113) n’est pas majoritaire puisqu’elle concerne quatre des systèmes étudiés sur les onze. De plus, trois de ces quatre systèmes imposent une structure assez rigide au raisonnement de l’élève.

En algèbre, notamment dans le logiciel APLUSIX qui permet de travailler le calcul sur les expressions algébriques et la résolution d’équations, Bouhineau et Nicaud définissent trois types de rétroactions épistémiques implémentées dans l’environnement (Bouhineau et Nicaud, 2006) :

- des rétroactions syntaxiques, qui répondent à « est-ce que l’expression algébrique est syntaxiquement correcte et bien définie ? » ;

- des rétroactions sémantiques, qui répondent à « est-ce que le raisonnement poursuivi est sémantiquement correct ? » ;

- des rétroactions stratégiques, qui sont relatives à l’avancement de la résolution.

Cette dernière catégorie correspond à des jauges affichées qui se remplissent au fur et à mesure de l’avancée dans la résolution. Ce type de rétroactions, plus global, nécessite une structure assez rigide du raisonnement mobilisé pour la résolution des problèmes.

Au-delà de la conception des rétroactions se posent la question de l’appropriation de ces rétroactions par les élèves et celle de leurs éventuels effets sur les apprentissages mathématiques. À ce propos, Rezat souligne : « while there is a large body of mainly quantitative research on the effectiveness of feedback in general, very little is known about how feedback actually affects students’ individual content specific learning processes and conceptual development » (Rezat, 2021, p. 1433).

Dans une étude récente, il étudie l’impact des rétroactions sur les conceptions d’élèves résolvant une tâche de probabilité proposée dans un manuel numérique de mathématiques. Le manuel propose plusieurs types de rétroactions décrites à partir de la classification de Shute (Shute, 2008) présentée dans la section 2.4 : lorsque l’élève appuie sur le bouton permettant de valider sa réponse, il reçoit une rétroaction de vérification (verification feedback) et, si la réponse est erronée, la possibilité de recommencer deux fois (try again feedback). Si l’élève échoue après le deuxième essai, une ampoule apparaît sur le côté, celle-ci donne plusieurs indices (elaborated feedback hints/cues/prompts). Si l’élève échoue une troisième fois, la bonne réponse lui est donnée (correct feedback). Rezat montre alors que dans les deux cas étudiés, la rétroaction de vérification incite les élèves à repenser leurs réponses. Cependant, puisque cette rétroaction n’est accompagnée d’aucune information, les élèves se contentent d’ajuster leur réponse sans faire évoluer leur procédure ou stratégie de résolution. Après avoir reçu la rétroaction élaborée, les élèves sont en mesure de proposer la réponse correcte. Cependant, cette réponse correcte n’apparaît pas à la suite d’une procédure de résolution correcte et attendue à ce niveau scolaire. En effet, « the analysis revealed that in both cases students instrumentalize information that is not relevant for the task » (Rezat, 2021, p. 1442). On observe par exemple une élève s’appuyer sur les formulations des deux rétroactions de vérification qu’elle reçoit (« No, this is not absolutely correct » et « No, not yet correct ») pour déduire qu’il faut proposer une réponse proche de celle qui l’a menée à recevoir la rétroaction « No, this is not absolutely correct ».

Nous constatons des observations comparables dans les analyses de Cazes et Vandebrouck (Cazes et Vandebrouck, 2008) qui étudient cinq bases d’exercices en ligne en s’intéressant aux effets sur des apprenants de lycée et du supérieur. Les bases d’exercices mettent en œuvre différents types de rétroactions : elles donnent ou non la bonne réponse, font référence ou non à la réponse erronée de l’élève, explicitent ou non la technique attendue, etc. On peut noter qu’aucune de ces bases n’exploite la réponse de l’élève pour le guider vers la réponse attendue. Cazes et Vandebrouck remarquent que les rétroactions ne sont souvent pas adaptées à l’activité de l’élève. Elles ne permettent à l’élève ni de comprendre son erreur, ni de proposer une meilleure solution. Soit la rétroaction ne reprend pas la procédure utilisée par l’élève pour lui expliquer pourquoi elle ne fonctionne pas, soit elle lui propose une procédure plus complexe (au moins en apparence) et l’élève ne parvient pas à s’en emparer. Cazes et Vandebrouck concluent en disant que lorsque la rétroaction est adaptée, si l’élève l’interprète correctement et s’il est dans une logique d’apprentissage (c’est-à-dire qu’il cherche « un peu plus que l’obtention du résultat »), alors la rétroaction peut jouer le rôle d’une aide constructive (Cazes et Vandebrouck, 2008, p. 186) et permettre à l’élève de trouver le résultat de l’exercice, mais aussi de transférer une partie des connaissances en jeu à d’autres exercices.

Rezat résume ainsi la situation : « no matter how carefully the tasks in e-textbooks and the feedback messages are designed, it is very likely that they still contain irrelevant information, which might become salient in students’ solution processes. Therefore, tasks, feedback messages, and diagrams need to be designed very carefully and as unambiguously as possible » (Rezat, 2021, p. 1443).

Si ces recherches permettent à nouveau de catégoriser les rétroactions, elles ne permettent pas de dire comment construire des rétroactions adaptées à l’activité de l’élève.

2.7. Modélisation formelle et calculable des rétroactions épistémiques

Nous avons ainsi l’objectif de proposer une formalisation permettant, d’une part, de pouvoir choisir automatiquement une rétroaction en tenant compte de ces différentes dimensions et, d’autre part, de pouvoir analyser de façon plus fine les rétroactions proposées par différents environnements informatiques d’apprentissage ainsi que leurs effets.

Tel qu’introduit précédemment, les connaissances didactiques semblent nécessaires pour concevoir des rétroactions épistémiques. Cependant, le choix de la rétroaction la plus pertinente pour un apprenant donné à un moment donné reste un verrou. De plus, l’évolution des systèmes prenant en compte tous ces éléments est difficile ou fastidieuse à mettre en place (Luengo, 2009).

Il semble donc nécessaire de concevoir un modèle capable de produire des rétroactions à partir des connaissances expertes, mais également capable d’évoluer, de façon informée, au fur et à mesure des interactions avec les apprenants, c’est-à-dire en utilisant les traces de ces interactions pour informer le modèle de décision et adapter l’importance de chaque rétroaction selon les contextes (c.-à-d. les situations d’apprentissage), les profils des élèves ou les modalités disponibles.

Une approche permettant de représenter le processus de décision de la rétroaction (Murray et al., 2004) ainsi que le type de rétroaction, de façon explicite et découplée, peut permettre ces deux types d’évolution. Nous pouvons ainsi distinguer deux composantes : l’une relative à la modélisation de la rétroaction elle-même et l’autre au processus de décision permettant de choisir la ou les rétroactions les plus pertinentes. Pour cela il est nécessaire de caractériser de façon formelle les rétroactions et d’identifier par ailleurs les facteurs qui interviennent dans le choix de la rétroaction, en tenant compte de ces caractéristiques.

Plusieurs travaux se sont intéressés à la dimension décisionnelle. Mayo et Metrovic (Mayo et Metrovic, 2001) ont proposé une classification des rétroactions qui est relative à l’optimisation de la rétroaction – qu’ils qualifient de « pedagogical action » (Mayo et Metrovic, 2001, p. 131). Selon ces auteurs, étant donné un modèle de l’apprenant représenté sous forme de réseaux bayésiens, le principe est de calculer l’action pédagogique optimale. Ils distinguent ainsi trois approches d’optimisation : alternative, diagnostic et théorie de la décision (ibid.).

Dans tous ces cas, les rétroactions elles-mêmes sont produites de façon ad hoc. Certains travaux produisent les rétroactions automatiquement après le processus de décision, mais cela particulièrement dans le cas des boucles externes. Nous pouvons ainsi citer l’approche développée par Luengo et al. (Luengo et al., 2011), qui proposent une procédure en quatre étapes : choix de la cible de la rétroaction (quelle connaissance ou erreur doit être ciblée suite au diagnostic), choix de l’intention de la rétroaction (déstabiliser, renforcer, diagnostiquer), choix de la modalité et enfin choix du contenu. Pour le contenu de la rétroaction, l’analyse et le calcul sont faits en fonction de la forme du support choisie (cours en ligne, simulateur ou base des cas cliniques).

Une autre approche, moins informée par les connaissances expertes, est celle de Clement et al. (Clement et al., 2015) qui proposent des rétroactions de boucle longue de type « prochaine activité » en adaptant un algorithme d’apprentissage par renforcement bien connu appelé Multi Armed Bandid (MAB). Les algorithmes de type MAB mettent en œuvre un processus de décision markovien à un seul état ; l’objectif est de chercher (i.e. explorer) l’action qui produit la meilleure récompense immédiate, puis de continuer à sélectionner (i.e. exploiter) cette dernière tant que c’est le cas. Les premières implémentations d’approches basées sur des MAB pour le choix de nouveaux exercices, proposées par Clement et al. (Clement et al., 2015), ont démontré l’efficacité de ces approches pour la sélection de nouveaux scénarios, étant donné des degrés plus ou moins importants de connaissances expertes à disposition. Plus récemment, Frenoy et al. (Frenoy et al., 2016) ont utilisé un MAB basé sur une approche probabiliste softmax pour la sélection d’actions pédagogiques lors de l’apprentissage de la calligraphie dans un environnement virtuel informé, c’est-à-dire un environnement disposant des informations sur la tâche de l’utilisateur et son contexte. Le point fort d’une approche par renforcement tient au fait de pouvoir combiner les connaissances expertes à des données collectées pendant l’interaction entre l’apprenant et le système.

2.8. Problématique

Cet état de l’art permet de pointer trois éléments essentiels :

- la diversité des classifications des rétroactions et le côté peu opérant de ces classifications pour produire et décider des rétroactions adaptées à l’activité de l’apprenant ;

- les limites des connaissances issues des travaux de didactique permettant de répondre à la question « quelle est la rétroaction la plus pertinente ? » ;

- la diversité des approches informatiques relatives à la décision des rétroactions.

Suite à ces constats, nous faisons les hypothèses suivantes :

- il est possible de proposer un modèle formalisé de description des rétroactions ;

- ce modèle peut permettre d’intégrer les connaissances de la didactique sur les savoirs en jeu ;

- ce modèle est une base permettant d’aborder la décision des rétroactions épistémiques en boucle interne à l’aide d'algorithmes d’apprentissage par renforcement.

Une première étape, qui est l’objet principal du travail présenté, est de formaliser suffisamment les rétroactions à partir des connaissances expertes, tout en s’assurant que l’on puisse exploiter cette formalisation, notamment pour rendre calculable le choix de la rétroaction.

3. Modèle de rétroactions

Nous présentons maintenant le modèle de rétroactions. Celui-ci permet de caractériser didactiquement une rétroaction dans la mesure où il permet d’expliciter à son propos :

- les éléments du savoir présents,

- les précisions apportées sur ces éléments de savoir,

- la présence de contenus relatifs à une erreur liée au savoir,

- sa ou ses fonctions possibles,

- sa relation avec la tâche donnée dans l’environnement.

La description des éléments de savoir mobilisés dans les rétroactions, des précisions apportées dessus et des classes d’erreurs usuelles nécessitent de disposer d’une modélisation du savoir. Nous exploitons l’approche praxéologique telle que définie dans la théorie anthropologique du didactique, ou TAD (Chevallard, 1992), et son extension T4-TEL (Chaachoua et al., 2019). Nous présentons dans la sous-section suivante les éléments de ces modèles nécessaires à la compréhension de la suite de l’article. Pour une approche plus globale, le lecteur trouvera des utilisations détaillées de ces cadres théoriques, pour des travaux en EIAH, dans (Mandin et Guin, 2014), (Vu et Tchounikine, 2020) et (Jolivet et al., 2021a).

3.1. Modélisation du savoir

L’approche praxéologique consiste à représenter toute activité humaine à l’aide d’un quadruplet [Type de tâches, Technique, Technologie, Théorie]. Pour préciser et illustrer les éléments de ce quadruplet nous nous plaçons dans le domaine des mathématiques.

- Type de tâches : les tâches à réaliser sont regroupées dans des ensembles de tâches, un ensemble contenant des tâches pouvant toutes être résolues d’au moins une manière commune. Un tel ensemble est appelé type de tâches. Les types de tâches sont définis à partir d’un verbe d’action (par exemple « résoudre ») et d’un objet mathématique sur lequel s’exerce l’action (par exemple « une équation du premier degré »).

- Technique (renommée procédure dans la suite du texte) : il s’agit d’un moyen existant pour réaliser les tâches d’un type de tâches ; par exemple, pour résoudre certaines équations du 1e degré : « transformer l’équation en une équation équivalente avec l’inconnue dans un seul membre, transformer l’équation en une équation équivalente avec les termes constants dans l’autre membre, calculer la valeur de l’inconnue ».

- Technologie et théorie (renommées justification dans la suite du texte) : il s’agit des propriétés, définitions, etc., qui permettent de justifier la validité mathématique des techniques ; par exemple, « une égalité est préservée quand on réalise la même opération dans les deux membres », « le produit d’un nombre et de son inverse est égal à un ».

Pour prendre en compte les erreurs, nous nous appuyons sur des classes d’erreurs susceptibles de se manifester lors de la résolution des tâches. Elles sont identifiées à partir de travaux issus de la didactique et sont reconnues par la mobilisation par l’apprenant d’une ou de plusieurs technologies erronées, qui va s’exprimer par la mise en œuvre d’une procédure erronée.

Afin de limiter les confusions, ou difficultés de lecture, liées à la dimension fortement polysémique dans ce contexte interdisciplinaire du vocabulaire utilisé dans la TAD, nous utilisons dans la suite de ce texte le terme procédure en remplacement du terme technique (c’est-à-dire tout élément permettant de réaliser un ensemble de tâches) et le terme justification en remplacement des termes technologie et théorie (c’est-à-dire les éléments du savoir qui permettent de justifier la validité d’une procédure). Ainsi, pour une tâche donnée, il existe une ou plusieurs procédures qui permettent de réaliser cette tâche. Les justifications permettent de garantir la validité des procédures et de guider leur mise en œuvre.

3.2. Le modèle de rétroaction

Notre modèle de rétroaction est synthétisé dans le diagramme présenté dans la figure 1. Nous détaillons dans la suite de cette section chacune de ses composantes et explicitons les relations qui les organisent. Nous l’illustrons par quelques exemples qui sont enrichis au fil de l’introduction des différentes composantes.

Figure 1 • Diagramme du modèle de rétroaction

3.2.1. Composante « Contenu rétroaction »

La composante « Contenu rétroaction » est au cœur de la représentation de la rétroaction, elle est nécessaire à son existence. Elle peut être composé d’une ou plusieurs procédures de résolution et/ou d’une ou plusieurs justifications.

Exemples : pour la tâche « résoudre l’équation 2y+1=5y-5 » on peut envisager, par exemple, les contenus proposés dans le tableau 1.

Tableau 1 • Exemples de contenus d'une rétroaction

Exemples de procédures

Exemples de justifications

Procédure 1
2y+1 = 5y – 5
2y+1-2y = 5y – 5 -2y
1+5 = 3y – 5 + 5
6 = 3y
y = 2

Justification 1
On obtient une équation équivalente à l’équation initiale en réalisant la même opération dans les deux membres de l’équation

Procédure 2
2 est une racine évidente de l’équation. Or une équation du 1er degré admet zéro, une ou une infinité de solutions. Donc 2 est la solution de l’équation.

Justification 2
On appelle solution d’une équation toute valeur qui, substituée à l’inconnue, rend l’égalité vraie. 

Remarque : nous proposons ici des contenus possibles, nous ne discutons ni de leur pertinence mathématique, ni de leur formulation, ni de leur mise en forme, ni de leur adaptation à tel ou tel élève.

3.2.2. Composante « Annotation »

La composante « Annotation » correspond à des éléments facultatifs qui viennent enrichir la rétroaction. Une annotation peut concerner (relation a pour cible dans la figure 1) le niveau global de la rétroaction ou porter spécifiquement sur un des éléments de contenu. Une annotation peut être textuelle ou graphique et avoir plusieurs finalités : détailler un aspect du contenu de la rétroaction, intégrer des éléments relatifs à une erreur, expliciter une fonction de la rétroaction. Nous illustrons la première finalité dans les exemples qui suivent et revenons sur les deux autres après avoir défini les composantes erreur et fonction de la rétroaction.

Exemples : pour les contenus proposés dans le tableau 1 on peut envisager, par exemple, les annotations proposées dans le tableau 2.

Tableau 2 • Exemples d'annotations pour une rétroaction

Exemple d’annotation avec pour cible le niveau global

Exemple d’annotation avec pour cible la procédure 1 du tableau 1.

« Nous te proposons un exemple de résolution d’une équation dont tu peux t’inspirer »
qui annote la rétroaction de contenu la procédure 1 ou 2 du tableau 1.

2y+1 = 5y – 5
2y+1-2y = 5y – 5 -2y (l’objectif de cette étape est d’obtenir une équation équivalente à l’équation initiale contenant l’inconnue dans un seul membre)
1+5 = 3y – 5 + 5 (l’objectif de cette étape est d’obtenir une équation équivalente tous les termes constants étant dans l’autre membre)
6 = 3y
y = 2

Dans la section 3.2.6 nous proposons une typologie d’annotations selon leur cible.

3.2.3. Composante « Erreur »

La composante « Erreur » décrit un contenu facultatif qui est porté par le moyen d’une annotation. L’étude didactique réalisée sur le savoir (procédures et justifications) peut permettre d’identifier des erreurs « classiques ». Il est alors possible d’intégrer à une rétroaction, par le moyen d’une annotation, des éléments relatifs à une erreur. Ceci peut se faire de deux manières : d’une part, en présentant une erreur effectivement réalisée (mise en œuvre d’une procédure erronée, formulation d’une justification erronée) et en la mettant en regard de l’élément valide ; d’autre part, en pointant explicitement une étape d’une procédure ou un élément d’une justification comme étant l’origine ou un lieu de manifestation fréquent d’erreur.

Exemples

La rétroaction définie par le contenu « dans un triangle ABC rectangle en A, BC²=AB²+AC² (théorème de Pythagore) » peut être augmentée :

- de l’annotation « Attention, avant d’utiliser le théorème de Pythagore, il faut bien vérifier que ton triangle est rectangle » qui fait référence à l’erreur classique qui est d’utiliser ce théorème hors de son domaine de validité ;

- de l’annotation « Il est fréquent, lorsque la longueur cherchée n’est pas celle de l’hypoténuse, de se tromper en ne faisant pas la soustraction » qui fait référence à la non identification du fait que, dans l’énoncé du théorème, c’est la longueur de l’hypoténuse qui est seule dans un des membres de l’égalité.

3.2.4. Composante « Fonction de la rétroaction »

La composante « Fonction de la rétroaction » est un attribut que l’on peut associer à une rétroaction. Galpérine identifie trois types d’opérations pour une action : orientation, exécution, contrôle (Galpérine, 1966). En nous inspirant de ce résultat, nous proposons trois fonctions possibles pour une rétroaction.

- Fonction de guidage : il s’agit d’une rétroaction destinée à un apprenant qui ne s’est pas encore engagé dans l’activité de résolution de la tâche (peu importe la raison). La rétroaction vise à lui fournir un moyen de débuter son activité. Ce moyen peut être le rappel d’une justification (définition ou propriété) ou la présentation d’une (partie d’une) procédure permettant l’entrée dans l’activité de résolution de la tâche. Dans ce cas, il serait plus juste de parler de rétro-inaction que de rétroaction, on retrouve l’idée de feed-forward proposée dans la taxonomie de J. Murray et al. (Murray et al., 2018, p. 86).

- Fonction d’aide à la reprise de la tâche : il s’agit d’une rétroaction destinée à un apprenant qui a réalisé, au moins partiellement, la tâche. Il peut avoir terminé la tâche, avec une ou plusieurs erreurs, ou ne pas être arrivé à finaliser son travail. Dans ce cas, la rétroaction porte directement sur la tâche, et contient donc une ou des justifications et/ou une ou des procédures mobilisées dans la réalisation de la tâche. Elle peut être augmentée par l’intégration d’éléments relatifs à une erreur.

- Fonction de contrôle : il s’agit d’une rétroaction destinée à un apprenant qui a finalisé la tâche avec au moins une erreur, sans toutefois lui fournir une rétroaction d’aide à la reprise de la tâche. On va l’amener à contrôler, de manière autonome, la validité de son résultat, par exemple en lui donnant une tâche supplémentaire.

Exemples

- Dans la rétroaction « Pour commencer n’hésite pas à réaliser un schéma à partir des données de l’énoncé », le contenu « réaliser un schéma à partir des données de l’énoncé » est une procédure relative à la résolution de certains problèmes. L’annotation « Pour commencer n’hésite pas à » attribue la fonction de guidage à la rétroaction.

- Dans la rétroaction « Voici un exemple détaillé qui devrait t’aider à corriger ta production [procédure 1 du tableau 1] », l’annotation « Voici un exemple détaillé qui devrait t’aider à corriger ta production » attribue la fonction d’aide à la reprise de la tâche à la rétroaction. La procédure 1 est un modèle de solution proposé à l’élève comme moyen de retravailler sa tâche qui est proche de la tâche utilisée pour écrire la rétroaction.

- Dans la rétroaction « Nous te rappelons que [justification 2 du tableau 1]. Ta réponse est-elle bien une solution de l’équation ? », les annotations « Nous te rappelons que » et « Ta réponse est-elle bien une solution de l’équation ? » attribuent la fonction contrôle à la rétroaction.

Remarque : un même contenu de rétroaction peut être pertinent pour plusieurs fonctions. Par exemple une rétroaction composée simplement de la justification « on appelle solution d’une équation (...) » peut avoir une fonction de guidage pour un élève qui ne commence pas la résolution d’une équation, mais peut aussi avoir la fonction de contrôle pour permettre à un élève qui a finalisé sa résolution de vérifier lui-même sa réponse. Ainsi une rétroaction peut avoir une ou plusieurs fonctions potentielles. Une annotation permet éventuellement d’en spécifier une.

3.2.5. Composante « Données »

La dernière composante de notre modèle permettant de décrire une rétroaction caractérise le type de données utilisées pour la formulation de la rétroaction et leur rapport avec les données de la tâche à résoudre.

Nous distinguons tout d’abord deux cas :

- soit la rétroaction utilise les données de l’énoncé (valeurs des coefficients d’une équation, nom des points de la figure, longueurs des segments...), on parle d’une rétroaction instanciée à la tâche ;

- soit la rétroaction n’utilise pas les données de l’énoncé, on distingue alors à nouveau deux cas :

• la rétroaction est rédigée en utilisant des données numériques qui ne sont pas celles de l’énoncé, on parle alors d’une rétroaction instanciée à une tâche ;

• elle est rédigée en utilisant des données symboliques (lettres pour les coefficients d’une expression algébrique, lettres pour désigner des longueurs en géométrie...), on parle alors de rétroaction générique.

Dans le Tableau 3, nous proposons des exemples de rétroactions des trois types pour la tâche « Développer (y+3)(4y-5) ».

Tableau 3 • Exemples de variations de rétroactions selon la composante « données »

Rétroaction instanciée à la tâche

Rétroaction instanciée à une tâche

Rétroaction générique

Voici la première étape de la résolution, à toi de continuer :
(y+3)(4y-5) =
yx4y-5xy+3x4y-3x5

Voici un exemple dont tu peux t’inspirer :
(z-4)(2z+5) =
zx2z+zx5-4x2z-4x5=
2z²-3z-20

Nous te rappelons la propriété de distributivité suivante :
(a+b)(c+d)=ac+ad+bc+bd

3.2.6. Typologie pour la composante « Annotation »

Comme nous l’avons illustré dans les exemples proposés ci-dessus, les annotations peuvent avoir différentes cibles. Sans viser à l'exhaustivité, nous indiquons trois cibles et, pour chacune de ces cibles, nous proposons dans le Tableau 4 une typologie des annotations selon leur objectif. Les différentes colonnes indiquent la cible de l’annotation (niveau global, procédure ou justification) puis chaque ligne correspond aux différentes finalités possibles des annotations selon la cible.

Tableau 4 • Typologie d'annotations selon la cible de la rétroaction

Exemples d’objectifs pour une annotation qui a pour cible...

... le niveau global de la rétroaction

... une procédure de la rétroaction

... une justification de la rétroaction

Expliciter le contenu de la rétroaction (p. ex. : voici un rappel de cours, voici un exemple résolu...)

Mettre en relation la procédure et la justification associée

Expliciter le domaine de validité de la justification (« je ne peux utiliser cette justification que si... »)

Expliciter la fonction de la rétroaction :
- Guidage
- Aide à la reprise de la tâche
- Contrôle

Identifier les changements de types de tâches (la procédure est considérée comme un ensemble de types de tâches), ce qui vise à mettre en évidence les grandes étapes de la procédure

Expliciter la finalité de la justification (« je peux utiliser cette justification pour... »)


Expliciter la mise en œuvre d’une étape particulière de la procédure, ce qui vise à préciser un type de tâches ingrédient de la procédure

Proposer une autre formulation de la justification (p. ex., exprimer la justification dans un autre registre)

 

Présenter une mise en œuvre erronée de la procédure avec identification de l’erreur (en relation avec la mise en œuvre correcte)

Présenter une justification erronée en lien avec la justification valide

 

Signaler explicitement une étape de la procédure comme lieu fréquent d’erreur


3.3. Premières conclusions sur le modèle de description des rétroactions épistémiques

Dans la section 3.2, nous avons proposé un modèle permettant de décrire des rétroactions épistémiques (voir sections 2.2 et 2.6) dans la mesure où il permet de décrire :

- les éléments du savoir présents dans la rétroaction ;

- leur nature en termes de procédure et de justification ;

- les informations complémentaires présentes sur les procédures et les justifications ;

- la prise en compte des erreurs (dont l’importance a été rappelée dans les sections 2.1 et 2.6) ;

- l’utilisation ou non des données de l’énoncé dans la rétroaction.

Il permet aussi de caractériser la rétroaction par une ou des fonctions, explicitées ou potentielles.

Nous avons donc présenté un modèle formalisé de description de rétroactions épistémiques qui permet d’intégrer les connaissances de la didactique sur les savoirs en jeu. Conformément aux objectifs fixés à la fin de la section 2.8, nous présentons dans la section suivante comment ce modèle permet d’aborder la question de la décision des rétroactions épistémiques. Une première validation du modèle de description sera l’objet de la section 5.

4. Décision des rétroactions

4.1. Problématique de la décision

Le modèle de rétroaction que nous avons présenté permet de décrire les rétroactions, ce qui est une étape importante pour permettre la décision de ces rétroactions. Comme nous le verrons dans la suite de cette section, il permet d’orienter l’expert dans l’élicitation des connaissances nécessaires pour le système de décision et permet également d’orienter le choix de la décision.

La décision des rétroactions dépend de multiples variables latentes sur l’apprenant et son activité qui ne sont pas observables directement (Lan et al., 2017), (Murray et al., 2004), ce qui rend difficile, même pour des experts du domaine, la décision de la rétroaction la plus adaptée à un élève résolvant une tâche et la prévision des conséquences possibles de cette rétroaction en termes de gain d’apprentissage pour l’élève. À fortiori, cette difficulté est accentuée dans le contexte des plateformes d’entraînement en ligne où le système dispose d’informations partielles voire même bruitées sur l’état de l’apprenant A, sur sa résolution R et sur les caractéristiques didactiques de la tâche T en cours. Dans la suite, nous désignons ces informations par le triplet <A|R|T>.

Dans le cadre de cette recherche, nous tentons de répondre aux questions suivantes :

- Peut-on faire appel à des algorithmes d’apprentissage automatique (AA) pour aider à réduire l’incertitude de la décision des rétroactions ?

- Est-il possible d’entraîner un modèle d’AA sur des données éducatives pour décider des rétroactions adaptées aux élèves ?

- Quel type de modèles d’AA est le mieux adapté pour la décision des rétroactions ?

L’approche que nous proposons combine l’AA et l’expertise de didacticiens pour décider des rétroactions adaptées. Cette notion d’adaptation dépend des objectifs attachés aux rétroactions. Doivent-elles permettre la progression de l’apprenant dans le domaine enseigné ou « juste » sa réussite dans la tâche ? L’approche proposée doit être suffisamment flexible pour permettre la réalisation d’objectifs différents.

4.2. Modélisation et caractéristiques du problème de décision des rétroactions

Les algorithmes d’AA ont été abondamment utilisés dans le domaine des EIAH (en particulier dans les communautés AIED et EDM) pour la modélisation de l’apprenant, la prédiction de son comportement, l’adaptation des parcours d’apprentissage, les tests adaptatifs, etc. Il existe trois types d’algorithmes d’apprentissage automatique : l’apprentissage non supervisé, l’apprentissage supervisé et l’apprentissage par renforcement (Reinforcement Learning ou RL) (Sutton et Barto, 2018). C’est ce dernier type d’algorithmes que nous avons choisi d’utiliser. Ce choix est motivé par les caractéristiques du problème de décision des rétroactions. En effet, nous le modélisons comme un problème de décision dans l’incertain puisqu’il existe une incertitude d’une part sur le type et le contenu de la rétroaction la plus adaptée et d’autre part sur les conséquences de la rétroaction décidée par le système sur l’apprenant. Ainsi, les caractéristiques intrinsèques des modèles par renforcement correspondent bien aux caractéristiques d’un problème de décision des rétroactions. Nous résumons ces caractéristiques comme suit.

- L’absence de superviseur : contrairement aux modèles d’AA supervisé, ici le modèle n’apprend pas sur des exemples annotés par un superviseur humain puisque les experts semblent en difficulté dans le choix de la rétroaction la mieux adaptée pour le triplet <A|R|T>. Le système dispose juste d’un signal de récompense qui, généralement, dépend de la conséquence de la rétroaction décidée par le système sur l’apprenant.

- La récompense du système peut être retardée : la rétroaction décidée par le système ne doit pas donner nécessairement lieu à une récompense immédiate puisque l’effet d’une rétroaction ne peut être évalué positivement simplement du fait que l’apprenant a réussi la tâche en cours, des effets sur les apprentissages à moyen et long terme peuvent être privilégiés.

- La rétroaction décidée par le système à l’instant t impacte les données qu’il reçoit du triplet <A|R|T> à l’instant + 1. En effet, la rétroaction décidée par le système peut influencer l’apprenant A et sa résolution R. Ceci est une caractéristique intrinsèque des modèles RL en comparaison avec les deux autres types de modèles d’AA.

4.3. Apprentissage par renforcement : apprendre une politique de rétroaction adaptative

Plusieurs travaux (He-Yueya et al., 2021), (Efremov et al., 2020), (Bassen et al., 2020), (Chi et al., 2011), (Doroudi et al., 2019), (Rowe et Lester, 2015) ont montré l’intérêt de l’apprentissage par renforcement (RL) pour l’élaboration de politiques pédagogiques. Ils montrent que les modèles RL peuvent apprendre des relations complexes et souvent latentes entre les tâches pédagogiques, les actions des apprenants et leurs acquis en termes de connaissances.

De manière générale, un agent logiciel RL apprend à optimiser des décisions dans l’incertain. Il apprend une politique de sélection d’actions dans un environnement incertain, guidé par des récompenses différées, afin d’atteindre un objectif (Sutton et Barto, 2018). L’agent RL utilise un signal de récompense basé sur l’environnement afin d’apprendre une politique, notée ∏, qui associe les états observés aux actions et maximise l’espérance de la récompense totale accumulée. Les agents, dans les problèmes d’apprentissage par renforcement, sont généralement modélisés avec des processus de décision markoviens.

Les éléments clés d’un algorithme d’apprentissage par renforcement (voir figure 2) sont les constituants du triplet (état, récompense, action). Dans le cas de la décision de rétroactions :

- L’état que reçoit l’agent RL est un ensemble d’informations du triplet <A|R|T> (c’est-à-dire les connaissances de l’apprenant A sur le(s) sujet(s) de la tâche T et l’état de sa résolution R qui comprend, entre autres, ses erreurs) ;

- la récompense se rapporte aux objectifs de la stratégie (par exemple la réussite dans la tâche en cours ou l’amélioration de l’état des connaissances des apprenants) ;

- l'action fait référence à la décision du système en termes de rétroactions épistémiques (par exemple, présenter une rétroaction à l’élève pour l’aider à réussir la tâche en cours, comprendre son erreur, lui rappeler des éléments du cours, etc.), décision qui, sur la base des informations de l'état <A|R|T>, vise à maximiser l’espérance mathématique de la récompense attendue.

Figure 2 • Fonctionnement du modèle RL dans le cas de la décision des rétroactions

4.4. Interventions des experts humains dans le processus de décision des rétroactions

Les experts humains interviennent dans deux étapes de la décision des rétroactions : d’une part, pour atténuer le problème du démarrage à froid de l'algorithme de décision et, d’autre part, pour la définition de la fonction de récompense.

En éducation, l’absence de données massives antérieures disponibles et pertinentes pose le problème du démarrage à froid de l'algorithme de décision des rétroactions. Ce problème peut être critique puisque, avant que l'agent RL ait suffisamment appris une bonne politique de décision, il peut recommander des rétroactions qui ne sont pas pertinentes pour le contexte des apprenants. Ces derniers peuvent ainsi passer plus de temps dans l'environnement avant d'atteindre les objectifs ou être désorientés par les décisions de l'agent.

Pour répondre à cette problématique, dans le cadre de notre recherche, des experts ont construit un arbre de décision où les nœuds de chaque branche de l’arbre sont des variables observables du triplet <A|R|T> intervenant dans la décision des rétroactions et où la feuille d’une branche est un ensemble de rétroactions. Cet ensemble contient les rétroactions considérées comme pertinentes didactiquement par les experts sans qu’ils aient pour autant une certitude quelconque sur leur efficacité pour un triplet observé <A|R|T>. Il évite au moins la recommandation de rétroactions aberrantes. Ainsi, cet arbre de décision articule différentes composantes du modèle (procédure, justification, erreur, etc.) avec la connaissance de l’apprenant.

Le modèle formel de rétroactions permet aux experts de définir la fonction de récompense de l'algorithme RL. En effet, grâce aux différentes composantes du modèle de rétroaction (contenu, annotation, etc.), il est possible d’affecter une récompense immédiate plus ou moins importante à la rétroaction. Ainsi, les composantes du modèle vont permettre de guider plus finement la décision par rapport à une fonction de récompense qui considèrerait la rétroaction dans sa globalité.

Ces deux interventions sont présentées plus en détail dans la section 5.2 consacrée à la présentation d’un cas d’étude.

5. Validations et applications

Dans cette section nous présentons deux évaluations des modèles : tout d’abord une première évaluation qualitative de la capacité du modèle de rétroactions, présenté dans la section 3, à les décrire ; puis nous présentons une preuve de concept en explicitant l’utilisation du modèle et la mise en œuvre du processus de décision dans le cadre de l’environnement numérique d’apprentissage Mindmath.

5.1. Validation qualitative du modèle de description

Pour exploiter l’aspect calculable du modèle de description des rétroactions, il faut tout d’abord s’assurer qu’il permet effectivement de les décrire et que cette description est identique lorsqu’elle est réalisée par plusieurs annotateurs. Nous nous sommes donc tout d’abord placés dans le cas où les rétroactions sont existantes. Pour pouvoir évaluer la portée du modèle nous avons travaillé avec des rétroactions provenant de deux environnements numériques d’apprentissage : la plateforme Carnegie Learning et la plateforme Mindmath. Quelques exemples de ces rétroactions sont proposés en figures 3 et 4.

Figure 3 • Exemples de rétroactions issues de Mindmath

Figure 4 • Exemples de rétroactions issues de la plateforme Carnegie Learning

5.1.1. Évaluation qualitative du modèle

L’évaluation qualitative a eu lieu en deux temps.

Premier temps : lors de la 21e école d’été de didactique des mathématiques, à l’occasion d’une séance de travail réunissant cinq chercheurs confirmés et les auteurs de l’article, nous avons évalué la compréhension du modèle, la lisibilité des formulations et la complétude du modèle. Ces cinq chercheurs ne sont impliqués ni dans la conception du modèle ni dans le projet Mindmath. Ils disposent en revanche d’une expertise sur les cadres didactiques mobilisés dans le modèle. Dans cette évaluation nous avons brièvement présenté à l’oral le modèle, puis nous leur avons demandé de l’exploiter pour décrire un ensemble de rétroactions. Ils disposaient pour cela d’un tableau (constitué de trois zones permettant de décrire le contenu, les annotations et les informations associées, et les données) et d’une version antérieure de la figure 1.

Deuxième temps : les auteurs de l’article ont procédé, en parallèle et sans interactions entre eux, à l’annotation de cinq rétroactions (trois issues de Carnegie et deux issues de Mindmath) à partir d’un guide de description donné préalablement. Ce guide était constitué d’une version antérieure de la figure 1 et d’une procédure à suivre pour chaque rétroaction :

- 1. décrire le contenu principal,

- 2. identifier la présence d’éléments relevant de la composante annotations,

- 3. préciser la fonction,

- 4. caractériser le type de données.

Même si tous les auteurs n’ont pas le même niveau de familiarité avec le modèle et/ou avec la didactique, choisir les auteurs comme annotateurs permet de limiter les effets liés à des difficultés d’appropriation du modèle.

Les enseignements suivants peuvent être tirés de ces deux évaluations.

- La première évaluation nous a amenés à repréciser la description de certaines composantes du modèle et à affiner des choix de vocabulaire, en particulier en ce qui concerne les fonctions des rétroactions.

- Le modèle semble permettre d’identifier tous les éléments présents dans une rétroaction (aucun expert n’a souhaité ajouter une composante supplémentaire), mais ne permet pas de décrire certaines caractéristiques de ces éléments. Ceci provient du fait que pour passer de la modélisation de la rétroaction à sa réification des choix ont été réalisés. Ainsi, les registres sémiotiques dans lesquels sont représentés certains éléments de la rétroaction, des choix typographiques pour mettre en évidence certains morceaux de texte, la tournure des phrases (forme interrogative ou affirmative) sont apparus comme des éléments de la rétroaction ne pouvant être décrits avec le modèle.

- Comme on peut le constater sur les figures 3 et 4, les rétroactions proposées dans Mindmath sont beaucoup plus composites que celles proposées dans Carnegie Learning. Conformément à l’intuition, il y a plus de divergences inter-annotateurs pour les rétroactions avec beaucoup de contenus. Si les composantes contenu et données ne provoquent globalement pas de divergences, les annotations présentent plus de difficultés. Celles-ci proviennent essentiellement du niveau de granularité de ce qui est considéré comme une seule annotation. Ainsi, si on considère la rétroaction relative aux propriétés générales d’un triangle isocèle (issue de Mindmath) proposée en figure 3, l’ensemble des annotateurs identifient deux contenus : chacune des phrases en rouge est considérée comme un contenu de type justification. En revanche, pour la composante annotation, il est proposé soit de considérer les deux ensembles « figure + formule » comme deux annotations, soit de considérer quatre annotations distinctes (chaque figure et chaque formule). Ces écarts sur le niveau de granularité de ce qui est considéré comme annotation impliquent des réponses différentes sur la fonction de l’annotation. Cependant, quand les annotations considérées sont les mêmes, il y a accord sur les fonctions.

- Un dernier élément identifié lors de ce premier travail d’évaluation est la prise en compte inégale, par les annotateurs, de deux éléments : le titre de la rétroaction (quand il existe) est soit considéré comme une annotation au niveau global de la rétroaction, soit ignoré ; la formulation de la rétroaction (forme affirmative ou interrogative) est parfois considérée comme une annotation qui confère une fonction particulière à la rétroaction (fonction de guidage dans le cas de la forme interrogative par exemple). Cette observation fait écho à l’observation réalisée avec les cinq chercheur.e.s didacticien.ne.s.

5.1.2. Perspectives ouvertes par cette validation qualitative, autres critères de validation

Cette première validation qualitative nous amène à identifier différentes pistes pour poursuivre ce travail d’évaluation de la capacité du modèle à décrire des rétroactions de manière non dépendante de l’annotateur, en particulier, les trois pistes qui suivent.

- Evaluer certaines composantes de manière indépendante, par exemple, en proposant des rétroactions dont les composantes « contenu » et « annotation » sont déjà explicitées, et en demandant à l’annotateur de proposer une ou plusieurs fonctions, en indiquant les raisons de son choix. Ceci pourrait permettre d’améliorer la typologie des annotations proposée dans le tableau 4 et d’étudier comment déduire de manière automatique, au moins partiellement, la fonction d’une rétroaction à partir des autres composantes.

- D’envisager un ou des moyens pour permettre la description des éléments qui ont manqué lors des deux évaluations.

- De reprendre le travail d’annotation de rétroactions par différents annotateurs en augmentant le nombre de rétroactions annotées afin d’évaluer, composante par composante et d’une manière globale, la fiabilité des descriptions obtenues. Ce travail pourrait être mené en ajoutant des rétroactions issues d’autres plateformes d’apprentissage des mathématiques, afin d’évaluer aussi la portée du modèle.

En complément de cette première validation qualitative, un autre critère de validation du modèle est développé dans les sections suivantes : une validation de la qualité des informations didactiques obtenues sur la rétroaction par l’utilisation qui en est faite, dans le cadre du projet Mindmath, en exploitant ces informations pour décider les rétroactions et calculer diverses informations nécessaires à la mise en œuvre d’un algorithme de machine learning (sections 5.2.2 et 5.2.3).

Ces premières expérimentations nous ont permis, d’une part, de réaliser un premier travail de reprise de certaines définitions ou du vocabulaire. D’autre part, elles nous incitent à construire un guide à destination de potentiels utilisateurs voulant décrire des rétroactions avec le modèle, en proposant des stratégies d’utilisation du modèle et des points d’attention (présence d’une forme interrogative dans la formulation de la rétroaction ; présence d’un titre ; etc.). La réalisation effective de ces éléments et leur expérimentation à une plus large échelle sont en cours et feront l’objet d’une publication ultérieure.

5.2. Preuve de concept : le cas Mindmath

En complément de cette première validation qualitative, le projet MindMath nous a permis de réifier la proposition dans un environnement informatique. Il nous a permis également une validation de la qualité des informations didactiques obtenues sur la rétroaction par l’utilisation qui en est faite en exploitant ces informations pour décider les rétroactions et calculer diverses informations nécessaires à la mise en œuvre d’un algorithme de machine learning.

Le projet MindMath1 vise à la construction d’une plateforme d'entraînement aux mathématiques du collège (algèbre et géométrie). Il regroupe deux laboratoires de recherche (LDAR et LIP6) et trois entreprises (Tralalère, CabriLog et Domoscio). Une spécificité du projet est d’articuler les expertises, du LDAR en didactique, du LIP6 et de Domoscio en IA et de Tralalère et CabriLog en matière éditoriale. Dans la plateforme, l’élève réalise des exercices, organisés au sein de parcours d'entraînement adaptatifs, durant lesquels il bénéficie de rétroactions. La production des exercices et des parcours, le contenu et la décision des rétroactions sont fondés épistémologiquement et didactiquement (Jolivet et al., 2021.a).

Dans cet article, nous nous concentrons sur la réification du modèle de description de rétroaction et sur la décision des rétroactions d’une manière générale. Le lecteur intéressé par d’autres éléments, en particulier sur les hypothèses didactiques qui ont fondé le travail et de premiers retours d’expérimentations peut se référer à (Jolivet et al., 2021b).

Nous illustrons dans les sous-sections suivantes, pour le cas de Mindmath, les deux enjeux identifiés dans la section 4 : l’arbre de décision et la fonction de récompense de l’algorithme d’apprentissage.

5.2.1. Arbre de décision dans Mindmath

Le processus de décision des rétroactions s’appuie sur une implémentation de l’arbre de décision introduit dans la section 4.4. Plusieurs variables sur les apprenants (leur niveau de raisonnement, leurs erreurs classiques, etc.), les caractéristiques de la tâche et l’état de la résolution (nombre de tentatives, nature de la demande de rétroaction, nature de l’erreur, etc.) sont observées par l’agent RL.

La figure 5 présente un extrait de l’arbre de décision utilisé pour décider les rétroactions. Les valeurs 0, 1 et 2 présentes sur certaines branches spécifient le rapport de l’apprenant au savoir travaillé.

Figure 5 • Extrait de l'arbre de décision des feedbacks construit avec des didacticiens

Le peuplement des feuilles est réalisé avec différentes rétroactions décrites selon le modèle présenté dans la section 3.2. Les tableaux 5 et 6 présentent les peuplements réalisés respectivement pour les feuilles 5 et 11 de la figure 5, avec les pondérations précisées dans la dernière colonne. La feuille 5 correspond au cas d’une réponse erronée, sans erreur type identifiée, pour un apprenant qui possède de bonnes compétences. La feuille 11 correspond au cas d’une réponse erronée, associée à une erreur qui est de plus très fréquente chez l’apprenant dont le niveau de compétence est faible.

Tableau 5 • Description des rétroactions et pondérations associées pour la feuille 5 de l’arbre de décision

Contenu

Annotation

Erreur

Fonction

Donnée

Pondération

Justification

Non

Non

Retour

Gén.

0,3

Justification

Oui

Non

Retour

Gén.

0,3

Procédure

Non

Eri

Retour

Gén.

0,2

Procédure

Non

Non

Retour

Gén.

0,2

Eri est l’erreur la plus fréquente sur des tâches similaires à celle à traiter.

Tableau 6 • Description des rétroactions et pondérations associées pour la feuille 11 de l’arbre de décision

Contenu

Annotation

Erreur

Fonction

Donnée

Pondération

Procédure

Oui

Erj

Retour

Inst. à une tâche

0,3

Procédure

Oui

Non

Retour

Idem

0,3

Procédure

Oui

Erj

Retour

Idem

0,2

Procédure

Oui

Non

Retour

Idem

0,2

L’approche que nous avons implémentée dans le cadre du projet Mindmath consiste à faire apprendre à l’agent RL une politique de décision des rétroactions au fur et à mesure de la réception des données et en maximisant l’espérance de la récompense telle que définie par les experts (voir section 4.4).

Nous avons choisi d’implémenter le Q-learning qui est un algorithme RL particulier (Watkins, 1989). Un des avantages du Q-learning est qu’il permet de comparer les récompenses probables de sélectionner telle ou telle rétroaction sans avoir un modèle de l’environnement (Model free). Le système de décision apprend une fonction de valeur état-action notée Q qui permet de maximiser la récompense sur le long terme :

S est l’ensemble des états du triplet <A|R|T>, A est l’ensemble des rétroactions possibles pour S et R l’espérance des récompenses futures.

L’algorithme du Q-learning fonctionne comme suit : au début de l’apprentissage automatique, la fonction Q est initialisée avec des pondérations données par les experts (voir Tableaux 5 et 6) qui représentent leur évaluation de la pertinence des rétroactions pour les différents états. Ensuite, à chaque choix d'action du système (dans notre cas une rétroaction), l'agent observe la récompense et le nouvel état (qui dépend de l'état précédent et de l'action actuelle). Le cœur de l'algorithme est une mise à jour de la fonction de valeur Q à chaque étape comme suit :

est le nouvel état, s est l'état précédent, a est l'action choisie, r est la récompense reçue par l’agent, α est un nombre entre 0 et 1, appelé facteur d'apprentissage, et γ est le facteur d'actualisation.

Des expérimentations sont en cours pour comparer cette approche, qui combine l’expertise humaine avec l’algorithme du Q-learning, à une approche purement experte, c’est-à-dire en utilisant l’arbre et les valeurs décrites initialement.

5.2.2. Fonction de récompense dans Mindmath

Nous avons aussi fait le choix de faire appel à l’expertise humaine dans la politique des rétroactions en définissant des fonctions de récompense appropriées (Bunel et al., 2018), (Gupta et al., 2019), (Efremov et al., 2020).

Dans le cadre de la plateforme MindMath, le modèle que nous avons proposé apprend à décider des rétroactions à destination d’apprenants en privilégiant leur réussite dans la tâche en cours et en minimisant la quantité d’information contenue dans ces rétroactions. La quantité d’information d’une rétroaction dépend de sa modélisation selon le modèle présenté précédemment (voir section 3.2.1). Pour chaque élément de contenu (procédure ou justification) et chaque annotation, nous avons associé une quantité d’information qui dépend du caractère plus ou moins informatif de l’élément. La quantité d’information globale d’une rétroaction est la somme des quantités d’information associées à ses composantes. Par conséquent, plus le contenu et les annotations d’une rétroaction sont nombreux, plus la récompense à l’issue de celle-ci diminue. Ce choix est motivé par le fait que plus la rétroaction est informative, plus elle va permettre la réussite de l’élève dans la tâche sans pour autant garantir son apprentissage.

Par exemple, une rétroaction où des éléments de la procédure et de l’erreur sont affichés à l’apprenant a une quantité d’information supérieure à une rétroaction où on a uniquement un élément de justification. La première pourrait davantage favoriser la réussite de l’élève dans la tâche par rapport à la deuxième rétroaction, donc sa récompense est affaiblie pour éviter d’apprendre une politique ∏ où seules les rétroactions les plus informatives sont sélectionnées.

Bien entendu, d’autres objectifs, basés sur le modèle de rétroaction proposé, peuvent orienter la définition de cette fonction de récompense (par ex. maximiser le gain d'apprentissage des apprenants sur le long terme) et influencer ainsi la politique de décision des rétroactions. Ces objectifs n’ont pas été mis en œuvre dans le cadre du projet Mindmath.

5.3. Premier bilan du cas d’étude Mindmath

Lors de la conception de l’arbre, nous avons pris en compte les éléments clés relatifs à l’efficacité des rétroactions pointés dans l’état de l’art (section 2) tels que la prise en compte de l’erreur de l’apprenant et son niveau. La mise en relation de ces éléments avec les rétroactions disponibles a été permise par la description des rétroactions fondée sur des éléments didactiques.

Il faut noter que les choix réalisés pour associer les rétroactions aux feuilles ont notamment été contraints par certaines spécificités du projet (rétroactions effectivement produites, tâches présentes dans le projet, format des rétroactions). Cependant la démarche à retenir est l’exploitation du modèle pour caractériser didactiquement les rétroactions et leur associer une pondération. Cette démarche est développée dans (Jolivet et al., 2021b). Il nous semble raisonnable de penser que le processus de mise en relation d’un arbre de décision avec des rétroactions (produites ou à produire) décrites à l’aide du modèle peut être exploité dans d’autres cas que celui de Mindmath.

Le processus de production des rétroactions, présenté dans la section 5.2.2, a aussi permis de faire émerger différentes difficultés qui ne sont pas prises en charge par le modèle dans son état actuel. Il s’agit d’ailleurs d’éléments qui ont aussi été mis en évidence lors la première évaluation réalisée avec les experts didacticiens : le modèle, s’il permet de définir le contenu de la rétroaction, ne permet en revanche pas de rendre compte de la réification de ces contenus. Or, par exemple, le choix du registre de représentation sémiotique pour formuler une justification a un impact didactique connu dans de nombreux cas et peut aussi avoir un impact sur l’utilisabilité de la rétroaction par l’apprenant, selon qu’il est familier ou non du registre utilisé (par exemple le théorème de Pythagore donné en langue naturelle ou avec une figure accompagnée d’une formule).

Enfin, la modélisation formelle des rétroactions a permis d’aider à définir les éléments du processus de décision (l’arbre de décision, la fonction de récompense). Cependant, il reste à évaluer, du point de vue informatique, la convergence de l’algorithme de décision sur des données réelles.

6. Limites et perspectives

Nous concluons cet article par deux propositions d’ouverture, l’une relative à l’exploitation du modèle, l’autre en lien avec les questions soulevées sur un plan informatique.

6.1. Un modèle pour étudier des environnements numériques d’apprentissage, ou aider à leur conception

Dans l’article nous avons présenté notre modèle de rétroaction comme moyen de décrire des rétroactions, avec une dimension didactique, et son exploitation pour leur décision.

Nous soulignons deux autres exploitations pertinentes du modèle :

- guider la production de rétroactions dans le cadre de la conception ou de l’enrichissement d’un environnement numérique d’apprentissage ;

- évaluer des EIAH en décrivant, analysant, comparant les rétroactions, selon les différentes composantes du modèle, dans un ou plusieurs environnements numériques d’apprentissage.

Si cette seconde perspective n’a été qu’ébauchée lors de l’analyse de rétroactions de Carnegie Learning et MindMath dans le cadre de la validation du modèle, la première a été largement explorée dans le cadre du projet MindMath.

Ainsi, dans le projet MindMath, le modèle de description a été exploité pour guider la définition et la production des rétroactions. Plus précisément, il a été utilisé comme langage de communication entre trois groupes d’acteurs du projet :

- les experts en didactiques qui souhaitaient caractériser les rétroactions pertinentes de leur point de vue ;

- le producteur de rétroactions, non didacticien, qui devait articuler attentes des didacticiens et contraintes de production de la plateforme (contraintes temporelles, éditoriales et techniques) ;

- les informaticiens en charge de la décision des rétroactions qui avaient besoin de rétroactions décrites d’une manière standardisée.

La capacité du modèle à remplir cette fonction auprès des trois groupes d’acteurs a débouché sur la production effective de 142 rétroactions, en lien avec 5 thèmes mathématiques (la réduction, le développement et la factorisation d’expressions algébriques ; la résolution des équations du 1er degré ; la construction de triangles à partir d’informations sur les côtés et les angles). Cette production a permis la prise en compte des attentes des experts en didactique et la possibilité pour les informaticiens de gérer de manière systématique, et avec un coût de développement moindre, leur recommandation. Pour des précisions sur les limites et difficultés liées à ce processus nous renvoyons le lecteur vers (Jolivet et al., 2021b). Il s’agit pour nous d’un critère supplémentaire de validation du modèle.

Un enseignement important peut être tiré de cette expérience pour des travaux de conception et de développement d’EIAH : lors de la production effective des rétroactions, même si elles sont décrites assez finement, par exemple à l’aide de notre modèle, il y a un nombre important de réifications possibles de la description. En effet, pour un même contenu, l’attribution de valeurs différentes aux composantes annotations, données, fonctions, permet de définir un ensemble de rétroactions variées. Certains de ces choix peuvent ne pas s’avérer neutres sur un plan didactique, d’autres sont contraints par les spécificités techniques de l’environnement.

Au final cela met en évidence deux éléments : tout d’abord qu’une analyse des effets des rétroactions sur l’apprenant ne peut être menée uniquement en s’appuyant sur leur description à partir du modèle mais peut nécessiter, en particulier en cas de résultats contradictoires ou difficilement interprétables, d’examiner les rétroactions réellement formulées et pas seulement leur catégorie. D’autre part, si on souhaite produire des rétroactions, il faut un prolongement du modèle qui permettrait de préciser la forme, et pas uniquement les contenus, des rétroactions à produire. L’exploitation effective d’un tel modèle étendu nécessiterait la conception d’outils auteurs, à la fois pour l’expert du domaine qui souhaite décrire les rétroactions à produire, et pour le producteur qui doit assurer la production effective de celles-ci. Il s’agit de considérations qui sont hors du champ de notre travail actuel.

Il reste enfin important de garder à l’esprit qu’en complément des problématiques liées à la production des rétroactions que nous avons esquissées, il n’est pas possible d’avoir des certitudes sur l’effet d’une rétroaction, ni sur les causes de cet effet, comme le pointe Rezat : « no matter how carefully the tasks in e-textbooks and the feedback messages are designed, it is very likely that they still contain irrelevant information, which might become salient in students’ solution processes. Therefore, tasks, feedback messages, and diagrams need to be designed very carefully and as unambiguously as possible » (Rezat, 2021, p. 1443).

Cet élément et la diversité des rétroactions potentielles motivent l’utilisation d’un algorithme de décisions de type machine learning qui permettra, au fil des itérations, de préciser quelles sont les rétroactions les plus efficaces. Notre problématique est réellement à l’intersection de questions informatiques et didactiques : conception, initialisation, choix des paramètres, etc. des algorithmes ; puis capacité à interpréter les résultats. Nous développons brièvement ces perspectives informatiques dans la section suivante.

6.2. Perspectives informatiques

Nous avons abordé le problème difficile de la décision des rétroactions en combinant l’expertise humaine et l’algorithme Q-learning. L’expertise humaine intervient à deux niveaux de la décision :

- d’abord, dans la construction de l’arbre de décision permettant de relier des variables sur l’apprenant, sur sa résolution et sur la tâche en cours à un ensemble de rétroactions possibles ;

- ensuite, dans la définition de la fonction de récompense du Q-learning.

L’implémentation de l’algorithme de décision a été testée sur des données synthétiques pour vérifier la convergence et déterminer la valeur de certains hyperparamètres de l’algorithme d’apprentissage du Q-learning (les facteurs α et γ pour la fonction de valeur par exemple). Ces données synthétiques ont été générées en considérant des comportements théoriques d’élèves. La démarche qui a guidé cette génération de données est la suivante : considérer trois modes de raisonnement des élèves théoriques (idoine, en construction, non adapté) – voir (Jolivet et Grugeon, 2022) pour plus de précisions – et définir pour chaque mode une probabilité d’échec de l’élève dans la tâche, qui dépend également du type de rétroaction reçue (procédure ou justification). Nous avons par exemple défini une forte probabilité d’échec pour des élèves ayant un mode de raisonnement non adapté et ayant reçu des rétroactions de justification peu informatives. Ces données synthétiques ont été utilisées pour rechercher les hyperparamètres du Q-learning et non pas pour l’apprentissage de la politique de décision.

Des expérimentations en situation écologique avec des élèves dans le cadre du projet MindMath sont prévues prochainement et vont permettre de recueillir à grande échelle des données issues de la plateforme. En particulier, nous travaillons sur différentes fonctions de récompense et ces expérimentations permettront de les tester sur des données réelles.

Il est également nécessaire de comparer cette approche mixte avec d’autres travaux récents sur la décision de rétroactions (Price et al., 2017), (Efremov et al., 2020).

À propos des auteurs

Sébastien Jolivet est chargé d’enseignement en didactique de l’informatique (IUFE) et chercheur associé au TECFA, à l’université de Genève. Titulaire d’une thèse en didactique des mathématiques soutenue en 2018 il a poursuivi par deux post-doc, une année au LDAR (Université de Paris) et une année au LIP6, équipe MOCAH (Sorbonne Université). Il inscrit ses travaux de recherche dans les domaines de la didactique, des mathématiques et de l’informatique, et des EIAH. Plus particulièrement, il s’intéresse aux ressources (description et production), ainsi qu’à la modélisation du savoir et à ses diverses exploitations.

Adresse : Institut Universitaire de la Formation des Enseignants, pavillon Mail, 40 Boulevard Pont-d’Arve, 1211 Genève 4, Suisse

Courriel : sebastien.jolivet@unige.ch

Toile : https://orcid.org/0000-0003-3915-8465?lang=fr

Amel Yessad est maître de conférences en informatique à Sorbonne Université et mène ses recherches au sein de l’équipe MOCAH (Modèles et Outils en ingénierie des Connaissances pour l'Apprentissage Humain) du LIP6 (Laboratoire d'Informatique de Sorbonne Université). Elle s’intéresse à l’intelligence artificielle pour l’apprentissage humain. En particulier, elle s’intéresse à la modélisation et la représentation informatique des connaissances humaines, à la mise en œuvre de systèmes adaptatifs capables, d’une part, de proposer des parcours d’apprentissage ou des feedbacks adaptés aux apprenants et, d’autre part, de prédire les comportements et les connaissances de ces apprenants.

Adresse : Sorbonne Université - LIP6, BC 169, 4 place Jussieu, 75252 Paris Cedex 05

Courriel : amel.yessad@lip6.fr

Toile : https://www.lip6.fr/actualite/personnes-fiche.php?ident=P763

Mathieu Muratet est maître de conférences en informatique à l'INS HEA (Institut National Supérieur de formation et de recherche pour l'éducation des jeunes Handicapés et les Enseignements Adaptés) et mène ses recherches au sein de l’équipe MOCAH (Modèles et Outils en ingénierie des Connaissances pour l'Apprentissage Humain) du LIP6 (Laboratoire d'Informatique de Sorbonne Université). Il s’intéresse au domaine des jeux sérieux et plus précisément aux problématiques liées à leur conception et au suivi des apprenants en vue de produire des feedbacks adaptatifs.

Adresse : Sorbonne Université - LIP6, BC 169, 4 place Jussieu, 75252 Paris Cedex 05

Courriel : mathieu.muratet@lip6.fr

Toile : https://webia.lip6.fr/~muratetm/

Elann Lesnes est docteur en didactique des mathématiques depuis 2021. Il est attaché temporaire d’enseignement et de recherche (ATER) à l’INSPÉ de Bretagne après l’avoir été à l’INSPE de Rouen Normandie. Ses recherches portent sur la didactique de la géométrie à la transition école élémentaire/collège et sur la conception d’environnements numériques prenant en compte les besoins d’apprentissage des élèves (en particulier le projet MindMath).

Adresse : INSPÉ de Bretagne, site de Rennes, 153 rue Saint-Malo, 35043 Rennes

Toile : elann.lesnes@inspe-bretagne.frhttps://orcid.org/0000-0002-0215-3700

Brigitte Grugeon-Allys est professeure émérite aÌ l’UPEC (Université Paris Est Créteil) et mène ses recherches auprès du laboratoire de didactique André Revuz (LDAR). Ses projets de recherche concernent la didactique de l’algèbre aux transitions eìcole/colleÌge/lyceìe (LeìA Peìcanumeli, LéA Lacocal), la conception d’environnements numeìriques prenant en compte les besoins d’apprentissage des élèves (projets Peìpite et MindMath) et la modélisation des pratiques enseignantes (enquête PRAESCO).

Adresse : LDAR, CC7018 75205 Paris Cedex 13

Courriel : brigitte.grugeon-allys@u-pec.fr

Toile : https://orcid.org/0000-0002-9769-8219

Vanda Luengo est professeure des universités en informatique à Sorbonne Université. Elle est responsable de l’équipe MOCAH au LIP6 (Laboratoire d'Informatique de Sorbonne Université). Ses recherches portent sur l’intelligence artificielle dans l’éducation et l’analytique des apprentissages avec le numérique. Ses thèmes de recherche sont la modélisation informatique de l’apprenant et des rétroactions épistémiques combinant les connaissances expertes et l’analyse de traces numériques d’apprentissage.

Adresse : Sorbonne Université - LIP6, BC 169, 4 place Jussieu, 75252 Paris Cedex 05

Courriel : vanda.luengo@lip6.fr

https://webia.lip6.fr/~luengo

RÉFÉRENCES

Bassen, J., Balaji, B., Schaarschmidt, M., Thille, C., Painter, J., Zimmaro, D., Games, A., Fast, E. et Mitchell, J. C. (2020). Reinforcement learning for the adaptive scheduling of educational activities. CHI, 1–12.

Bimba, A. T., Idris, N., Al-Hunaiyyan, A., Mahmud, R. B. et Shuib, N. L. B. M. (2017). Adaptive feedback in computer-based learning environments: A review. Adaptive Behavior, 25(5), 217-234. Disponible sur internet

Bouhineau, D. et Nicaud, J.-F. (2006). Environnements informatiques pour l’apprentissage humain. Dans M. Grandbastien et J.-M. Labat (dir.), Environnements informatiques pour l’apprentissage humain (p. 333–350). Hermès-Lavoisier.

Brooks, C., Carroll, A., Gillies, R. M. et Hattie, J. (2019). A Matrix of Feedback for Learning. Australian Journal of Teacher Education, 44(4), 14-32.

Bull, S., et Kay, J. (2016). SMILI: A framework for interfaces to learning data in open learner models, learning analytics and related fields. International Journal of Artificial Intelligence in Education, 26, 293– 331.

Bunel, R., Hausknecht, M., Devlin, J., Singh, R. et Kohli, P. (2018). Leveraging grammar and reinforcement learning for neural program synthesis. arXiv. Disponible sur internet

Cazes, C. et Vandebrouck, F. (2008). L’activité des élèves sur les bases d’exercices en ligne. Dans F. Vandebrouck (dir.), La classe de mathématiques : activités des élèves et pratiques des enseignants (p. 149-218). Octarès.

Chaachoua, H., Bessot, A., Romo, A. et Castela, C. (2019). Developments and functionalities in the praxeological model. Dans M. Bosch, Y. Chevallard, F. Javier Garcia et J. Monaghan (dir.), Working with the anthropological theory of the didactic: A comprehensive casebook (p. 41-60). Routledge.

Chevallard, Y. (1992). Concepts fondamentaux de la didactique : Perspectives apportées par une approche anthropologique. Recherche en didactique des mathématiques, 12(1), 83‑121.

Chi, M., VanLehn, K., Litman, D. et Jordan, P. (2011). Empirically evaluating the application of reinforcement learning to the induction of effective and adaptive pedagogical strategies. User Modeling and User-Adapted Interaction, 21(1), 137–180.

Clement, B., Roy, D., Oudeyer, P.-Y. et Lopes, M. (2015). Multi-armed bandits for intelligent tutoring systems. Journal of Educational Data Mining, 7(2), 20-48. Disponible sur internet

Dawson, P., Henderson, M., Ryan, T., Mahoney, P., Boud, D., Phillips, M. et Molloy, E. (2018). Technology and feedback design. Dans M. J. Spector, B. B. Lockee et M. D. Childress (dir.), Learning, design, and technology: An international compendium of theory, research, practice, and policy (p. 1–45). Springer. Disponible sur internet

Doroudi, S., Aleven, V. et Brunskill, E. (2019). Where’s the reward? International Journal of Artificial Intelligence in Education, 29(4), 568–620.

Duval, R. (1993). Registres de représentation sémiotique et fonctionnement cognitif de la pensée. Annales de didactique et de sciences cognitives, 5, 37-65.

Efremov, A., Ghosh, A. et Singla, A. (2020). Zero-shot learning of hint policy via reinforcement learning and program synthesis. Dans Proceedings of the International Conference on Educational Data Mining (EDM 2020) (p. 388-394).

Frenoy, R., Soullard, Y., Thouvenin, I. et Gapenne, O. (2016). Adaptive training environment without prior knowledge: Modeling feedback selection as a multi-armed bandit problem. Dans Proceedings of the 2016 Conference on User Modeling Adaptation and Personalization (p. 131-139). ACM.

Galpérine, P. (1966). Essai sur la formation par étapes des actions et des concepts. Dans A.-N Léontiev, A. Luria et A. Smirnov (dir.), Recherches psychologiques en URSS (p. 114-132). Moscou : Éditions du Progrès.

Gupta, R., Kanade, A. et Shevade, S. K. (2019). Deep reinforcement learning for syntactic error repair in student programs. Dans Proceedings of the 33th AAAI Conference on Artificial Intelligence (p. 930-937).

Hattie, J. et Gan, M. (2011). Instruction based on feedback. Dans Handbook of research on learning and instruction (p. 263-285). Routledge.

Hattie, J. et Timperley, H. (2007). The Power of Feedback. Review of Educational Research, 77(1), 81-112. Disponible sur internet

He-Yueya, J. et Singla, A. (2021). Quizzing Policy Using Reinforcement Learning for Inferring the Student Knowledge State. Dans Proceedings of the International Conference on Educational Data Mining (EDM 2021) (p. 533-539).

Jolivet, S., Lesnes-Cuisiniez, E. et Grugeon-Allys, B. (2021). Conception d’une plateforme d’apprentissage en ligne en algèbre et en géométrie : Prise en compte et apports de modèles didactiques. Annales de didactique et de sciences cognitives, 26, 117-156.

Jolivet, S., Yessad, A., Muratet, M., Luengo, V., Reiter, B., Grugeon-Allys, B. et Lesnes-Cuisiniez, E. (2021). Feedbacks épistémiques dans une plateforme d’entrainement aux mathématiques : modèle et décision, apports croisés de l’informatique et de la didactique. Dans M. Lefevre, C. Michel, T. Geoffre, M. Rodi, L. Alvarez et A. Karoui (dir.), Actes de la 10e Conférence sur les Environnements Informatiques pour l’Apprentissage Humain (p. 82-93).

Jolivet, S. et Grugeon-Allys, B. (2022). Modélisation de parcours d’apprentissage adaptés à l’apprenant dans un EIAH. Dans Pré-Actes de la 7e conférence internationale sur la théorie anthropologique du didactique (CITAD7) (p. 92-106).

Kluger, A. N. et DeNisi, A. (1996). The effects of feedback interventions on performance: A historical review, a meta-analysis, and a preliminary feedback intervention theory. Psychological Bulletin, 119(2), 254-284.

Lan, A. S., Brinton, C. G., Yang, T. Y. et Chiang, M. (2017). Behavior-Based Latent Variable Model for Learner Engagement. Dans Proceedings of the International Conference on Educational Data Mining (EDM 2017) (p. 64-71).

Leibold, N. et Schwarz, L. M. (2015). The art of giving online feedback. Journal of Effective Teaching, 15(1), 34-46.

Luengo, V. (2009). Les rétroactions épistémiques dans les Environnements Informatiques pour l’Apprentissage Humain [Habilitation à Diriger des Recherches, Université Joseph Fourrier, Grenoble 1, France]. Disponible sur internet

Luengo, V., Vadcard, L., Tonetti, J. et Dubois, M. (2011). Diagnostic des connaissances et rétroaction épistémique adaptative en chirurgie. Revue des Sciences et Technologies de l'Information - Série RIA : Revue d'Intelligence Artificielle, Lavoisier, 25(4), 499-524.

Mandin, S. et Guin, N. (2014). Basing learner modelling on an ontology of knowledge and skills. Dans Proceedings of the 2014 IEEE 14th International Conference on Advanced Learning Technologies (p. 321-323).

Mayo, M. et Mitrovic, A. (2001). Optimising ITS behaviour with bayesian networks and decision theory. International Journal of Artificial Intelligence in Education, 12, 124-153.

McKendree, J. (1990). Effective feedback content for tutoring complex skills. Human-Computer interaction, 5(4), 381-413.

Mory, E. H. (2004). Feedback research revisited. Dans D. Jonassen (dir.), Handbook of Research on Educational Communications and Technology (p. 745-783). Erlbaum.

Murray J., Gasson R. et Smith J. (2018). Toward a taxonomy of written feedback messages. Dans A. Lipnevich et J. Smith (dir.), The Cambridge Handbook of Instructional Feedback (p. 79-96). Cambridge University Press.

Murray, R., VanLehn, K. et Mostow, K. (2004). Looking ahead to select tutorial actions: A decision-theoretic approach. International Journal of Artificial Intelligence in Education, 14, 235-278.

Price, T., Zhi, R. et Barnes, T. (2017). Evaluation of a data-driven feedback algorithm for open-ended programming. Dans Proceedings of the International Conference on Educational Data Mining (EDM 2017) (p. 192-197).

Rezat, S. (2021). How automated feedback from a digital mathematics textbook affects primary students’ conceptual development: Two case studies. ZDM–Mathematics Education, 53, 1433-1445. Disponible sur internet

Rowe, J. P. et Lester, J. C. (2015). Improving student problem solving in narrative-centered learning environments: A modular reinforcement learning framework. Dans Proceedings of the 17th International conference on artificial intelligence in education (AIED 2015) (p. 419-428). Springer.

Shute, V. J. (2008). Focus on formative feedback. Review of educational research, 78(1), 153-189.

Small, M. et Lin, A. (2018). Instructional feedback in mathematics. Dans A. Lipnevich et J. Smith (dir.), The Cambridge Handbook of Instructional Feedback (p. 169-190). Cambridge University Press.

Stobart, G. (2018). Becoming proficient: An alternative perspective on the role of feedback. Dans A. Lipnevich et J. Smith (dir.), The Cambridge Handbook of Instructional Feedback (p. 29-51). Cambridge University Press.

Sutton, R. S. et Barto, A. G. (2018). Reinforcement learning: An introduction. MIT Press.

Tessier-Baillargeon, M., Leduc, N., Richard, P. R. et Gagnon, M. (2017). Etude comparative de systèmes tutoriels pour l’exercice de la démonstration en géométrie. Annales de didactique et de sciences cognitives, 22, 91-117.

VanLehn, K. (2006). The behavior of tutoring systems. International Journal of Artificial Intelligence in Education, 16, 227– 265.

VanLehn, K. (2011). The relative effectiveness of human tutoring, intelligent tutoring systems, and other tutoring systems. Educational Psychologist, 46(4), 197-221.

Vu, T. M. H. et Tchounikine, P. (2020). Supporting teacher scripting with an ontological model of task-technique content knowledge. Computers & Education, 163, 104098.

Watkins, C. J. C. H. (1989). Learning from delayed rewards [Thèse de Doctorat, Université de Cambridge, Royaume Uni].

Wisniewski, B., Zierer, K. et Hattie, J. (2020). The power of feedback revisited: A meta-analysis of educational feedback research. Frontiers in Psychology, 10. Disponible sur internet


1 Projet lauréat du Fond Unique Interministériel 23. http://mindmath.education/