Sciences et Technologies
de l´Information et
de la Communication pour
l´Éducation et la Formation
 

Volume 13, 2006
Article de recherche

Leçons tirées de la conception de AMBRE-add
Comment combiner les objectifs et méthodes d’évaluation pour la conception itérative
des EIAH ?

Sandra Nogry, Stéphanie Jean-Daubias, Nathalie Guin-Duclosson LIRIS, Lyon

RÉSUMÉ : Cet article discute des évaluations à réaliser dans le cadre de la conception itérative d’un EIAH. Au cours de la conception, différents aspects de l’interface doivent être évalués : son utilisabilité, son utilité, son acceptabilité ; différentes techniques existent pour chacun de ces aspects. Lors de la conception de l’EIAH AMBRE-add, nous avons combiné diverses techniques, successivement ou simultanément, afin de faire progresser la conception du logiciel. Dans cet article, nous analysons la démarche d’évaluation adoptée dans ce projet en précisant les apports et les limites des différentes évaluations réalisées. Nous montrons en particulier l’intérêt de combiner des techniques permettant de mesurer l’impact du logiciel sur l’apprentissage avec une analyse de l’activité des apprenants. Sur cette base, nous proposons une démarche d’évaluation plus générale pouvant être appliquée dans le cadre de la conception itérative d’EIAH support aux situations d’apprentissage.

MOTS CLÉS : conception itérative, utilisabilité, utilité, acceptabilité, usages, démarche d’évaluation.

ABSTRACT : This paper deals with the evaluation to conduct during the iterative design of an ILE. During the design of an ILE a set of aspects of the system must be evaluated: usability, utility and acceptance; in this aim, a set of evaluation techniques already exists. For the design of the ITS AMBRE-add, several techniques were combined in order to evaluate and refine the system. In this paper, the approach we adopted to evaluate AMBRE-add is described and analysed in order to specify its contributions and its limits. Finally we propose a general approach of evaluation to be implemented during iterative design of an ILE.

KEYWORDS : iterative design, usability, utility, acceptance, usage analysis, evaluation process.

1. Introduction

Depuis longtemps déjà, de nombreux auteurs militent pour l’intégration de l’évaluation dès la conception des EIAH (voir par exemple (Nanard et Nanard, 1998)) afin de corriger rapidement des problèmes qu’il serait coûteux voir impossible de corriger en fin de conception. Mais quelle démarche d’évaluation suivre au cours de la conception d’un EIAH ?

Différents objets d’évaluation ont été mis en évidence, différentes techniques ont été décrites et proposées, mais comme le soulignent (Bastien et Scapin, 2004), p. 461, ces techniques sont pour la plupart indépendantes les unes des autres, ce qui pose le problème de leur articulation. Dans cet article, à la lumière de l’évaluation que nous avons conduite dans le cadre du projet AMBRE, nous proposons une démarche d’évaluation des EIAH dans un contexte de conception itérative. Cette démarche est plus particulièrement destinée aux EIAH supports aux situations d’apprentissage, c’est-à-dire aux environnements qui créent des situations d’apprentissage en contraignant l’activité individuelle afin de favoriser l’acquisition de compétences ou de concepts précis pour lesquels les interactions et les processus d’apprentissage sont considérés comme des facteurs clés (Tchounikine, 2002).

Comme l’impact de ces EIAH sur l’apprentissage dépend de la manière dont ils orientent l’activité des apprenants, il nous paraît nécessaire de combiner l’analyse de l’activité des apprenants utilisant le logiciel et son impact sur l’apprentissage. La démarche que nous proposons vise donc à conjuguer différentes méthodes d’évaluation afin d’intégrer au cycle de conception à la fois l’évaluation de l’utilisabilité du logiciel, son impact sur l’apprentissage et l’analyse de l’activité individuelle réalisée par les apprenants dans l’environnement.

Après avoir présenté les différents objets d’évaluation habituellement pris en compte lors de la conception de systèmes informatiques, ainsi que quelques-unes des méthodes associées, nous mettrons en évidence les spécificités de l’évaluation des EIAH en discutant des méthodes adaptées à cette évaluation. Ensuite, nous présenterons les évaluations que nous avons réalisées dans le cadre de la conception de AMBRE-add, un EIAH traitant le domaine des problèmes additifs. L’évaluation de ce système, qui s’est déroulée en plusieurs étapes et a impliqué une centaine d’élèves, présente la caractéristique d’être particulièrement complète. Cette partie sera suivie d’une critique de la démarche suivie : les avantages et les limites des différentes méthodes utilisées seront présentées, puis nous montrerons l’intérêt de combiner l’analyse de l’activité réalisée dans l’environnement à l’évaluation de l’utilisabilité et de l’impact du système sur l’apprentissage. Enfin, nous décrirons la démarche d’évaluation que nous proposons pour la conception itérative d’un EIAH.

2. L’évaluation des EIAH

De nombreuses méthodes destinées à évaluer les différents aspects de l’interface des systèmes informatiques ont été proposées (Kolski, 2001). Trois aspects sont particulièrement importants à évaluer : l’utilisabilité d’un logiciel, son utilité et son acceptabilité.

L’utilisabilité concerne la facilité d'utilisation d’un système. Elle est définie comme étant l’adéquation entre la manière dont une tâche est réalisée par un utilisateur et les capacités cognitives de cet utilisateur (Farenc, 1997). D’après la définition ISO 9241-11, un logiciel est utilisable lorsque l'utilisateur peut réaliser sa tâche (efficacité), qu'il consomme un minimum de ressources pour le faire (efficience) et que le système est agréable à utiliser (satisfaction de l’utilisateur). L’utilisabilité est souvent le seul critère ergonomique pris en compte par les concepteurs (Burkhardt et Sperandio, 2004). Cependant Senach distingue l’utilité de l’utilisabilité d’un système, où l’utilité est l’adéquation entre les fonctions fournies par le système et celles nécessaires à l’utilisateur pour atteindre les objectifs de haut niveau du client (Senach, 1993). Quant à l’acceptabilité, elle concerne la perception qu’a l’utilisateur de l’utilisabilité et de l’utilité du système, et influe sur sa décision d’utiliser cet outil. Elle est dépendante des normes, valeurs, motivations et affects des utilisateurs (Davis, 1986), (Davis, 1989), (Nielsen, 1993), (Dillon et Morris, 1996).

Dans cette section, après avoir précisé les spécificités des EIAH par rapport aux autres environnements informatiques, nous présentons une revue, qui ne se veut pas exhaustive, des différentes méthodes permettant d’évaluer l’utilisabilité, l’utilité et l’acceptabilité d’un EIAH support aux situations d’apprentissage individuel.

Spécificités des EIAH

Les EIAH ont certaines spécificités qu’il est nécessaire de prendre en compte pour évaluer de manière adéquate l’utilisabilité, l’utilité et l’acceptabilité des EIAH.

La première spécificité concerne l’objectif de haut niveau des EIAH : favoriser l’apprentissage. Cet objectif peut différer de la tâche que doit accomplir l’apprenant (l’objectif à court terme). Par exemple, pour favoriser l’apprentissage d’une notion particulière, un premier objectif à court terme peut être de rechercher des documents traitant de cette notion dans un hypermédia, conférant ainsi à l’EIAH deux objectifs de natures différentes.

La seconde spécificité est liée aux utilisateurs des EIAH. Il faut en effet distinguer deux types d’utilisateurs : les apprenants et les enseignants. Si les apprenants sont clairement les utilisateurs finaux principaux de ces systèmes, les enseignants en sont prescripteurs, au sens où ce sont généralement eux qui provoquent l’utilisation par les apprenants d’un EIAH donné, mais ils peuvent également en être utilisateurs secondaires (Dubourg et Teutsch, 1997), (Jean-Daubias, 2003) du fait qu’ils peuvent parfois préparer le travail de leurs apprenants en paramétrant le système. Dans ce cas, on doit prendre en compte les deux types d’utilisateurs pour l’évaluation du système.

Par ailleurs, les situations d’utilisation des EIAH peuvent être très variées. Ces systèmes peuvent être utilisés seuls ou en binôme, à la maison, en salle informatique avec l’enseignant ou en salle de classe en autonomie pendant que les autres élèves effectuent d’autres activités. L’utilisation du système peut être extrêmement ponctuelle (utilisation unique) ou régulière pendant une période de l’année (par exemple une utilisation par semaine pendant trois mois). Or la situation d’utilisation d’un EIAH a un impact sur l’apprentissage. Il est donc nécessaire de prendre en compte cette situation lors de l’évaluation de l’apprentissage.

Suivant ces spécificités, les méthodes d’évaluation de l’utilisabilité doivent être adaptées aux EIAH (Hû et Trigano, 1998), (Jean, 2003) et les méthodes d’évaluation de l’utilité doivent être spécifiques à l’objectif de haut niveau de ces systèmes : l’apprentissage.

Utilisabilité et EIAH

« L’utilisabilité des EIAH se joue au niveau de l’interface (sa cohérence, sa lisibilité, la façon dont elle représente les actions possibles, etc.), de sa navigation (la cohérence, la simplicité, l’exhaustivité des déplacements possibles), et de sa cohérence avec l’objectif » (Tricot et al., 2003).

Classiquement on oppose deux types de méthodes d’évaluation de l’utilisabilité : l’évaluation analytique et l’évaluation empirique.

L’évaluation analytique de l’utilisabilité consiste à étudier l’interface selon un ensemble de référents afin de contrôler qu’elle possède bien certaines qualités et de détecter les problèmes qu’elle peut poser. L’évaluation analytique est souvent faite sous forme d’une évaluation par inspection, conduite par le concepteur ou par des experts qui peuvent s’appuyer sur des listes de critères conçues par des ergonomes (voir par exemple (Bastien et Scapin, 1993), (Nielsen, 1993), (Lewis et al., 1990), (Schneiderman, 1992). Ces critères et attributs peuvent être utilisés pour évaluer l’utilisabilité des EIAH (Squires et Preece, 1999), mais doivent parfois être adaptés en fonction de l’objectif pédagogique du logiciel, des utilisateurs des EIAH, de la tâche et de la théorie de l’apprentissage sous-jacente à l’environnement (Jean-Daubias, 2003), (Hû et Trigano, 1998).

Pour faciliter l’évaluation analytique, il existe également des check-lists qui permettent de vérifier point par point que le logiciel est conforme à un certain nombre de critères. L’utilisation de check-lists semble toutefois être peu adaptée aux EIAH (Squires et Preece, 1999) du fait qu’elles ne prennent pas en compte le contexte d’utilisation réel du logiciel, contexte particulièrement important en EIAH.

L’évaluation empirique consiste à recueillir des données relatives au comportement de l’utilisateur lors de l’utilisation du système. L’utilisation qui est faite du système par ses utilisateurs est observée et analysée. Une observation individuelle détaillée de l’interaction entre l’utilisateur et le système permet d’identifier les capacités de l’utilisateur, de détecter les difficultés éventuelles, ou encore de noter les caractéristiques inattendues de la situation (Gagné et al., 1988). Ainsi, pour évaluer empiriquement l’utilisabilité d’un système, Nielsen propose d’observer des utilisateurs durant l’utilisation du logiciel suivant des critères déterminés et d’interroger ensuite les utilisateurs (Nielsen, 1993). Ses études montrent qu’un panel de cinq utilisateurs « représentatifs » de chaque type de population visée permet d’identifier 80% des problèmes (Nielsen et Landauer, 1993). Ces techniques d’observation peuvent être complétées par un questionnaire afin d’avoir des indications sur la compréhension ou la satisfaction de l’utilisateur.

Ces méthodes d’évaluation empiriques sont plus flexibles et semblent plus appropriées aux EIAH que les méthodes analytiques, dans la mesure où les utilisateurs observés sont représentatifs des apprenants qui utiliseront ensuite le système. Ces observations, conduites dans le contexte d’utilisation envisagé pour le logiciel, peuvent permettre de déterminer si les apprenants ont le comportement et les résultats escomptés dans des conditions proches de la réalité (Hoecker et Elias, 1986).

Méthodes d’évaluation de l’utilité des EIAH

S’il est important qu’un EIAH soit utilisable, il est également nécessaire de vérifier qu’il est utile, c’est-à-dire qu’il permet d’atteindre l’objectif fixé. Dans le cadre des EIAH, l’objectif à atteindre comporte deux niveaux : l'apprentissage (de la discipline enseignée et non de la manipulation du système) et la réalisation des tâches proposées par le système dans le but de permettre cet apprentissage (résolution de problèmes, recherche d’informations, simulations...) (Vivet, 1996), (Jean-Daubias, 2003). Même si ces niveaux sont connectés, il n’y a pas toujours de lien direct entre la réalisation de la tâche et l’apprentissage effectif, un échec dans la réalisation de la tâche pouvant, dans certaines conditions, être bénéfique pour l’apprentissage. Évaluer l’utilité d’un EIAH ne consiste donc pas uniquement à vérifier que l’utilisateur peut réaliser la tâche qu’il souhaite accomplir, ce qui peut être fait avec des méthodes classiques, cela consiste également à évaluer si l’objectif d’apprentissage tel qu’il est défini, souvent conjointement par le concepteur, le prescripteur et éventuellement l’enseignant qui prépare la session d’apprentissage, est atteint par l’apprenant.

Il existe de nombreuses méthodes pour évaluer l’apprentissage, pour la plupart empiriques. La méthode comparative, développée par la psychologie cognitive, est souvent utilisée pour évaluer les EIAH (voir (Shute et Regian, 1993) pour une description). Elle consiste à comparer l’effet de plusieurs situations sur l’apprentissage qui en résulte à l’aide de tâches à réaliser avant et après la situation d’apprentissage proposée (voir (Tricot, 2002) pour une revue critique des tâches utilisées pour l’évaluation). La difficulté réside dans le choix de la condition contrôle : faut-il comparer l’EIAH à un enseignement oral ? À un autre système ? À une version tronquée de l’EIAH testé ? Malgré cette difficulté, cette méthode permet d’observer le résultat d’un changement dû au système et d’inférer les connaissances acquises par l’apprenant avec un certain degré de généralité. Toutefois, elle ne permet pas de comprendre ce qui se passe au cours de l’utilisation du dispositif de formation. Des méthodes « on-line » (Rouet et Passerault, 1999) apportent des indications sur l’activité de l’apprenant au cours de l’utilisation du logiciel. Certaines méthodes permettent d’identifier sur quels éléments l’apprenant a focalisé son attention. D’autres favorisent la compréhension des processus d’apprentissage mis en œuvre. Ainsi, le recueil des verbalisations (Caverni, 1988), qui consiste à demander à l’apprenant de penser à haute voix durant l’activité proposée, permet d’identifier les raisonnements qu’il peut mettre en œuvre pour la réaliser. La collecte de documents et de traces d’interactions peut compléter les informations verbales. En complément de ces méthodes, les méthodes ethnographiques permettent de prendre en compte la situation dans laquelle l’apprentissage se déroule (Barfurth et al., 1994), (Fasse et Kolodner, 2000).

Acceptabilité des EIAH

Enfin, une troisième dimension à évaluer concerne l’acceptabilité de l’EIAH. Celle-ci peut se définir comme « la valeur de la représentation mentale (attitudes, opinions, etc., plus ou moins positives) à propos de l’EIAH, de son utilisabilité et de son utilité » (Tricot et al., 2003), p. 396. Cette représentation mentale, individuelle ou collective, conditionnerait la décision d’utilisation de l’EIAH, c’est-à-dire d’une part la décision des prescripteurs de proposer ou non le logiciel, et d’autre part la motivation des apprenants à l’utiliser. Comme le précisent (Tricot et al., 2003) « l’acceptabilité peut être sensible à des facteurs tels que la culture et les valeurs des utilisateurs, leurs affects, leur motivation, l’organisation sociale et les pratiques dans lesquelles s’insère plus ou moins bien l’EIAH ». L’acceptabilité peut faire l’objet d’une évaluation par inspection en étudiant l’acceptabilité en termes d’adéquation aux besoins de l’institution, aux attentes des apprenants, aux caractéristiques des apprenants. L’évaluation peut également être envisagée en termes de compatibilité avec l’organisation du temps, l’organisation des lieux, la présence du matériel nécessaire, la visibilité des résultats. Enfin, l’acceptabilité peut faire l’objet d’une évaluation empirique par observations, entretiens ou questionnaires en prenant en compte la motivation, les affects, les cultures et les valeurs des utilisateurs et prescripteurs de l’EIAH -voir (Tricot et al., 2003), page 194.

Selon le modèle proposé par Nielsen, l’acceptabilité d’un système comporte une dimension pratique et une dimension sociale (Nielsen, 1993). L’utilisabilité et l’utilité d’un système font partie des critères qui déterminent son acceptabilité pratique. Elles apparaissent comme des conditions nécessaires à une bonne acceptabilité, mais elles ne sont pas suffisantes. Des études plus récentes ont proposé d’autres modèles et montrent que les relations entre ces trois dimensions ne sont pas faciles à évaluer et sont plus complexes que ce que laisse supposer le modèle de Nielsen, chacune de ces trois dimensions ayant une influence sur les autres -voir (Tricot et al., 2003) pour une revue.

Cette revue n’est pas exhaustive, la question de l’évaluation des EIAH a été traitée plus largement, notamment dans (Delozanne, 2006), (Nogry et al., 2004), (Tricot et al., 2003).

3. Comment conjuguer les différents objets d’évaluation et quelles méthodes utiliser au cours de la conception d’un EIAH ?

Comme nous l’avons souligné dans la partie précédente, pour évaluer un EIAH, il est particulièrement important de vérifier qu’il est utilisable et acceptable par les prescripteurs et les apprenants, qu’il permet de réaliser la tâche que l’apprenant souhaite accomplir, et qu’il a bien un impact sur l’acquisition des connaissances ou des compétences visées. Cette partie a pour but de montrer comment prendre en compte ces différentes facettes précocement au cours de la conception.

Le génie logiciel a développé des méthodes de conception qui permettent d’intégrer l’évaluation au cycle de conception. Ainsi, la conception itérative consiste à affiner progressivement les spécifications en évaluant les solutions retenues, puis en intégrant les modifications choisies jusqu'à obtention d'un produit satisfaisant (Van Eylen et Hiraclidès, 1996 cité par (Jean-Daubias, 2000) ; voir également (Delozanne, 2006)). Cette démarche de conception s'appuie sur la réalisation de maquettes et de prototypes qui sont évalués puis éventuellement modifiés. Les méthodes d’évaluation de l’utilisabilité ont été conçues pour informer la conception, et peuvent donc facilement être utilisées dans un tel cycle de conception. En revanche, les méthodes d’évaluation de l’impact d’un EIAH sur l’apprentissage ont souvent été utilisées pour évaluer la qualité d’un EIAH en fin de conception ou a posteriori. Or, en situation de conception, pour aboutir à une nouvelle version du logiciel, les méthodes d’évaluation doivent non seulement informer sur la qualité du logiciel, mais aussi permettre d’identifier les déficits éventuels du logiciel ainsi que les causes de ces déficits : relèvent-ils d’un problème de contenu, d’une inadéquation entre le dispositif et le format de la connaissance à acquérir (pour une synthèse, voir (De Vries, 2001)), d’un manque de correspondance entre l’objectif d’apprentissage et les besoins de l’apprenant (Tricot et al., 2003) ?

Quelles méthodes d’évaluation utiliser pour éclairer la conception sur chacune de ces facettes ? Certaines méthodes étant plus contraignantes que d’autres à mettre en œuvre, comment les conjuguer pour faire évoluer la conception sans l’alourdir ? S’il existe des descriptions de chacune de ces méthodes, de leur intérêt et de leurs limites, il n’existe pas à notre connaissance de guide qui permette d’orienter la démarche d’évaluation en conception. Aussi, sur la base des travaux existants, nous avons mis en place une démarche d’évaluation pour orienter la conception de l’EIAH AMBRE-add.

Dans cette section, après avoir présenté le principe de cet EIAH et son domaine d’application, nous décrirons les différentes évaluations réalisées dans le cadre de la conception de cet environnement en en présentant les intérêts et les limites, puis nous procéderons à une réflexion critique sur la démarche d’évaluation ainsi mise en place.

L’EIAH AMBRE-add

L’EIAH AMBRE-add, conçu dans le cadre du projet AMBRE (Guin-Duclosson et al., 2002), propose de guider la résolution de problèmes additifs afin de conduire les apprenants à acquérir des classes de problèmes (Vergnaud, 1982), (Riley et al., 1983), (Guin, 1991) et des techniques associées à ces classes de problèmes. Suivant le principe du projet AMBRE, l’EIAH présente à l’apprenant des problèmes résolus puis assiste l’apprenant dans la résolution d’un nouveau problème en le guidant à travers les différentes étapes du cycle du Raisonnement à Partir de Cas, RàPC par la suite (cf. Figure 1) :

- Après avoir lu l’énoncé du problème, l’apprenant doit reformuler le problème afin d’identifier les éléments pertinents pour la résolution.

- Ensuite il choisit, parmi les problèmes-types, un problème proche du problème à résoudre.

- Puis l’apprenant adapte la solution du problème type au problème à résoudre.

- Enfin il range le nouveau problème dans la base de problèmes déjà rencontrés.

images/sticef_2006_nogry_1401.jpg

Figure 1 : Le cycle du RàPC adapté au projet AMBRE (« cycle AMBRE ») ; ce cycle décrit les activités de l’apprenant lors de l’utilisation du logiciel.

Ces étapes sont donc guidées par le système mais effectuées par l’apprenant. Dans chacune de ces étapes, un diagnostic est réalisé par le système. Celui-ci évalue la production de l’apprenant et lui propose si nécessaire des explications pour l’amener à comprendre ses erreurs et à corriger ses réponses. Nous considérons que ce diagnostic remplace l’étape de révision présente dans le cycle du RàPC ; ainsi, la révision est distribuée entre les différentes étapes.

L’objectif du projet AMBRE est de montrer que des EIAH conçus suivant ce principe peuvent faciliter l’acquisition de classes de problèmes et des techniques de résolution associées, dans le domaine des problèmes additifs comme dans d’autres domaines d’application.

Les problèmes proposés par AMBRE-add aux apprenants sont des problèmes additifs à une étape étudiés principalement en cycle 2 de l’école primaire française (par des élèves de 7 - 8 ans).

Les problèmes additifs décrivent une situation concrète, par exemple un jeu de billes : « Karim avait 32 billes. À la fin de la récréation, il en a 45. Combien a-t-il gagné de billes pendant la récréation ? ». Pour un problème de ce type, la résolution proposée dans AMBRE-add est décomposée en quatre étapes :

- Décrire le problème à l’aide d’une “opération à trou” : 32 + ? = 45 (équation représentant le problème)

- Écrire comment on effectue le calcul : 45 - 32 = ?

- Effectuer le calcul : 13

- Écrire la réponse à la question : Karim a gagné 13 billes.

Seule l’équation représentant la résolution est considérée comme étant la technique de résolution associée à la classe, le reste de la résolution mobilise d’autres compétences relevant du calcul numérique.

Certains problèmes additifs sont résolus dès la maternelle, alors que d'autres posent encore des difficultés en fin de troisième (Marthe, 1982). Greeno et Riley montrent que les difficultés que rencontrent les jeunes enfants en résolvant des problèmes additifs viennent essentiellement du fait qu’ils n'arrivent pas à se représenter correctement la situation décrite dans l'énoncé (Greeno et Riley, 1987). De nombreuses études montrent que la catégorie du problème et la nature de l'inconnue interviennent dans la difficulté du problème. Le projet AMBRE postule que le fait de demander à l’apprenant de reformuler le nouveau problème puis de rechercher un problème proche afin d’adapter sa solution pour résoudre le nouveau problème peut lui apprendre à modéliser le problème et à acquérir les classes de problèmes et les techniques de résolution associées.

Cycle de conception et d’évaluation de l’EIAH AMBRE-add

L’EIAH AMBRE-add a été développé au sein d’une équipe pluridisciplinaire en suivant un cycle de conception itérative. Cette démarche de conception itérative a été choisie afin de valider les choix de conception pluridisciplinaires et de détecter précocement les difficultés. Suivant cette démarche, durant la conception de AMBRE-add, des phases de spécification, d’implémentation de prototypes, d’évaluation, et de production de nouvelles spécifications se sont alternées (Figure 2).

De par la nature pluridisciplinaire du projet AMBRE, des partenaires aux profils variés sont intervenus dans chacune de ces étapes suivant une méthode de conception différenciée (Jean-Daubias, 2004) : des chercheurs en informatique, mais aussi en psychologie cognitive et en didactique des mathématiques, une conseillère pédagogique, des enseignants et des apprenants.

images/sticef_2006_nogry_1402.jpg

Figure 2 : Le cycle de conception itérative de l’EIAH AMBRE-add qui montre l'élargissement progressif des utilisateurs, des tests et des validations logicielles
(inspiré du schéma proposé par Jean, 2000).

Des premières spécifications générales définissant le principe du projet AMBRE ont d’abord été proposées (cf. Figure 2) par l’équipe de conception. Ensuite, ces spécifications ont été appliquées au domaine des problèmes additifs afin de concevoir et d’implémenter l’EIAH AMBRE-add. Dans le cadre d’une conception itérative, ce système a fait l’objet d’une évaluation technique par les développeurs. Ensuite, différentes évaluations analytiques, simples et rapides à mettre en œuvre, ont été réalisées, certaines par les concepteurs afin d’identifier des défauts d’utilisabilité, d’autres avec une conseillère pédagogique et des enseignants afin d’adapter l’environnement aux élèves de primaire. Chaque évaluation était suivie de nouvelles spécifications et de modifications du système. Une fois que la conception a abouti à une version de l’EIAH en adéquation avec les objectifs initiaux du projet et pouvant être intégrée, a priori, dans les dispositifs pédagogiques existants, quatre évaluations empiriques ont été réalisées. Celles-ci avaient pour but d’évaluer l’utilisabilité et l’utilité du système en observant le comportement réel des apprenants utilisant le logiciel ; ces évaluations ont toutes été suivies de nouvelles spécifications et de modifications du logiciel.

Dans la section suivante, nous présentons les méthodes utilisées dans chacune de ces évaluations, ainsi que les spécifications auxquelles elles ont abouties.

Les évaluations menées durant la conception de AMBRE-add

Pour évaluer l’utilisabilité de AMBRE-add et son impact sur l’apprentissage, nous avons conduit plusieurs études en combinant différentes méthodes (présentées dans la partie 2). Nous présupposions implicitement qu’il était nécessaire d’évaluer d’abord l’utilisabilité du système puis son utilité ; l’acceptabilité étant à prendre en compte dans un troisième temps. Aussi, après des évaluations analytiques par inspection, une première évaluation a été conduite en laboratoire avec cinq élèves de CE1 dans le but d’identifier les plus grosses difficultés d’utilisabilité du système. Ensuite une évaluation comparative a été réalisée à l’école auprès de trois classes d’élèves de CE1 pendant plusieurs semaines, afin d’observer l’utilisation du logiciel en situation réelle et d’évaluer l’impact du principe du logiciel (le cycle AMBRE) sur l’apprentissage (voir (Nogry, 2005) pour une description détaillée). Comme nous allons le voir, cette évaluation s’est révélée trop ambitieuse pour différentes raisons que nous exposerons. Elle nous a toutefois fourni des indications relatives à l’utilisabilité et à l’acceptabilité du logiciel par les élèves de CE1, ce qui nous a amenées à réaliser d’autres évaluations, plus légères, auprès d’enfants en CE2. La troisième évaluation a donc consisté à observer 21 élèves de CE2 utiliser le logiciel pendant quatre séances afin d’analyser leur activité dans l’environnement informatique. Une quatrième étude, une évaluation comparative en classe de CE2, a été réalisée afin de confirmer les observations réalisées au cours de l’étude précédente et d’évaluer l’impact du logiciel lui-même sur l’apprentissage.

Évaluations par inspection

L’équipe de conception a d’abord procédé à différentes évaluations analytiques concernant plusieurs aspects du logiciel. Outre l’évaluation technique, nous avons réalisé une évaluation de l’utilisabilité en inspectant les différents aspects de l’interface suivant les critères proposés par Bastien et Scapin en accordant une attention particulière à la cohérence de l’interface, au guidage et à la gestion des erreurs (Bastien et Scapin, 1993), (Jean-Daubias, 2003).

Concernant la cohérence, nous nous sommes assurées que les codes, les dénominations et les interactions proposées soient bien homogènes. Nous avons évalué le guidage en nous assurant que l’utilisateur puisse savoir à tout moment où il se situe dans la séquence d’actions et quelles actions lui sont permises. De plus, nous avons vérifié que les groupements proposés facilitent bien la compréhension et la mise en relation des différents éléments d’interface. En outre, nous avons essayé de réduire le nombre d’erreurs d’utilisation possibles, et nous avons vérifié qu’un message d’aide était systématiquement prévu en cas d’erreur d’utilisation.

AMBRE-add a également fait l’objet d’une évaluation par inspection par des enseignants et une conseillère pédagogique afin de valider l’interface sur le plan pédagogique. Cette inspection a permis d’évaluer différents aspects du logiciel. Tout d’abord, une inspection globale de l’EIAH a été réalisée afin que les enseignants vérifient que les différentes activités proposées par le logiciel dans ses différentes étapes étaient adaptées à des élèves de cycle 2. Cette inspection avait également pour objectif de vérifier la qualité des consignes et des messages d’erreur et de diagnostic, afin d’ajuster le vocabulaire utilisé aux élèves de CE1. Cette inspection a par ailleurs porté sur le contenu proposé par le logiciel : une analyse systématique des problèmes présentés a permis de vérifier que les thèmes abordés étaient adaptés et que les valeurs utilisées dans les problèmes correspondaient bien au niveau des apprenants.

Ainsi, cette inspection pédagogique nous a permis de compléter l’inspection ergonomique de l’utilisabilité en apportant un avis d’experts sur l’adéquation des consignes et des messages au public visé et sur l’adéquation du contenu proposé au niveau des apprenants.

Évaluation empirique conduite en laboratoire

Une première évaluation empirique a été conduite en laboratoire afin de mettre en évidence les plus grosses difficultés rencontrées par des enfants en classe de CE1 lors de l’utilisation de l’EIAH AMBRE-add. Comme le préconisent Nielsen et Landauer (Nielsen et Landauer, 1993), cinq enfants ont été observés individuellement lors d’une séance d’utilisation du système d’une durée de 45 minutes. Ils étaient ensuite interrogés sur différents aspects de l’utilisation du logiciel. Cette observation était guidée par des critères ergonomiques sélectionnés parmi ceux proposés par Bastien et Scapin, Nielsen, ainsi que Schneiderman, tels que la prise en main du logiciel, la compréhension générale, l’efficacité, la gestion des erreurs, la surcharge cognitive et la satisfaction (Bastien et Scapin, 1993), (Nielsen, 1993), (Schneiderman, 1992). Pour chaque critère, un ensemble d’observables avaient été préalablement défini.

Apports de cette évaluation

Cette première observation et l’analyse des réponses des enfants au questionnaire nous ont permis de décrire l’utilisation du logiciel suivant les critères choisis et de mettre en évidence les problèmes d’utilisabilité rencontrés par les enfants lors de l’utilisation de l’interface. Nous avons par exemple observé certaines difficultés pour comprendre le principe général du logiciel ; une séance d’utilisation ne semblait pas suffisante pour prendre en main le logiciel. Des problèmes d’interaction ont également été mis en évidence : dans la phase d’analyse des exemples, certains éléments d’interface évoquaient des cases à remplir mais n’étaient pas associés à une action, ce qui induisait les enfants en erreur. Enfin, nous avons mis en évidence une difficulté d’ordre mathématique récurrente chez tous les utilisateurs. Dans l’étape d’adaptation, après avoir construit l’addition à trou (ex : 32+ ?=43), les apprenants éprouvaient de très grosses difficultés à trouver l’opération correspondante (ex : 43-32= ?) (cf. Figure 3). Les enfants ne disposent en effet pas des outils mathématiques pour effectuer cette transformation en classe de CE1. Ce problème n’avait pourtant été évoqué ni par la conseillère pédagogique ni par les enseignants durant les évaluations analytiques.

images/sticef_2006_nogry_1403.jpg

Figure 3 : Plan de rédaction de la solution dans AMBRE-add.

Ces différentes observations nous ont amenées à proposer des recommandations qui ont conduit à modifier certains éléments d’interface, à revoir la présentation du logiciel afin de faciliter sa prise en main et sa compréhension, et à modifier l’étape d’adaptation afin d’éliminer la difficulté liée au calcul.

Limites

Cette évaluation comporte cependant certaines limites. Durant l’observation, si nous avons remarqué qu’une séance d’utilisation n’était pas suffisante pour prendre en main le logiciel, nous n’avons pas eu la possibilité de déterminer le nombre de séances nécessaires pour prendre en main le logiciel, les enfants n’étant venus au laboratoire que pour une seule séance.

Par ailleurs, les conditions d’observation ont pu influencer le comportement des enfants : la présence de l’observateur a pu les pousser à être plus concentrés et plus attentifs qu’ils ne l’auraient été en utilisant le logiciel en classe. Par ailleurs, les enfants ont souvent eu la tentation de demander de l’aide à l’observateur plutôt que d’utiliser l’aide du logiciel (même si l’observateur minimisait ses interventions), ce qui a sans doute limité la qualité des observations portant sur l’utilisation du système d’aide et de diagnostic.

Évaluation de l’impact du logiciel sur l’apprentissage

Après avoir identifié les principales difficultés rencontrées lors de l’utilisation du logiciel et apporté des modifications à AMBRE-add, nous avons conduit une deuxième évaluation, dans une situation proche d’une situation réelle d’utilisation scolaire. L’objectif principal de cette évaluation était de mesurer l’impact du cycle AMBRE sur l’apprentissage en utilisant une méthode comparative consistant à utiliser AMBRE-add ou un logiciel contrôle et comportant différents tests permettant de comparer les progrès accomplis par les élèves suivant le système utilisé.

Durant cette étude, le logiciel était utilisé par demi-classe, en salle informatique, pendant six séances d’une demi-heure. Le fait de réaliser cette évaluation en classe permet d’étudier l’utilisation du logiciel dans une situation écologique, familière aux élèves. Tous les paramètres de cette situation d’utilisation ne pouvant pas être contrôlés, diverses méthodes qualitatives ont été utilisées afin d’observer l’activité des apprenants durant les séances d’une part et de prendre en compte la situation dans laquelle le système était utilisé, ainsi que les interactions entre apprenants et encadrants d’autre part.

La section suivante présente les techniques mises en place pour évaluer chacun de ces aspects, puis les résultats obtenus. Nous discuterons ensuite l’intérêt et les limites de ces techniques au vu des objectifs visés.

Impact de AMBRE-add sur l’apprentissage

Pour tester l’impact du cycle AMBRE sur l’apprentissage de classes de problèmes et des techniques associées, nous avons comparé l’utilisation de AMBRE-add à celle de deux logiciels contrôles. L’objectif de cette comparaison était de montrer que guider la résolution d’un problème à travers les étapes du cycle AMBRE (cf. Figure 4), a un impact plus important sur l’apprentissage que d’autres formes de résolutions de problèmes arithmétiques sur ordinateur.

Le premier logiciel contrôle (« résolution simple », cf. Figure 4) présentait d’abord des problèmes résolus puis proposait de résoudre un nouveau problème directement, sans le reformuler ou identifier un problème proche. Après la résolution, un écran présentait à l’apprenant un bilan du problème. Comme, dans cette condition, le nombre d’étapes pour la résolution était beaucoup moins important que dans AMBRE-add, une tâche complémentaire était proposée afin d’équilibrer le temps passé entre les deux systèmes, elle consistait à rechercher des informations dans un énoncé.

images/sticef_2006_nogry_1404.jpg

Figure 4 : Logiciels utilisés pour évaluer l’impact de AMBRE-add dans une approche comparative.

Le deuxième logiciel contrôle (« reformulation et résolution », cf. Figure 4) présentait des problèmes résolus puis demandait à l’apprenant de résoudre un nouveau problème en le reformulant avant de chercher sa solution. Un bilan de la résolution était ensuite proposé. Contrairement à AMBRE-add, ce système ne proposait pas de choisir et d’adapter un problème-type. La comparaison de l’impact sur l’apprentissage de ce logiciel avec l’impact de AMBRE-add devait permettre d’évaluer si le choix d’un problème type et son adaptation a une influence réelle sur l’apprentissage, ou si l’étape de reformulation peut expliquer à elle-seule l’impact du système. Il est à noter que ces deux logiciels contrôle ont été conçus sur la base de AMBRE-add, la charte graphique était identique, les messages d’aide et d’explications ont été adaptés à partir de ceux proposés par AMBRE-add, quant aux problèmes proposés dans ces trois logiciels, ils étaient identiques.

Nous avons choisi de conduire cette expérience auprès de trois classes d’élèves de CE1, effectif qui nous paraissait suffisant pour pouvoir mettre en évidence des différences significatives entre groupes.

Dans chacune des trois classes de CE1 participant à l’évaluation, la moitié des élèves utilisait le logiciel AMBRE-add tandis que l’autre moitié utilisait l’un des deux logiciels contrôle implémentés pour cette expérience.

L’impact des différents logiciels sur l’apprentissage des classes de problèmes et des techniques associées était mesuré à travers différents tests (voir (Nogry et al., 2004) pour une présentation détaillée). Parmi ceux-ci, un test papier-crayon consistant à résoudre six problèmes était proposé dans le but de mesurer les progrès réalisés par les élèves suivant le logiciel contrôle utilisé. Celui-ci était présenté avant l’utilisation des logiciels (test 1), après la quatrième séance (test 2), immédiatement après la dernière séance (test 3) et un mois après (test 4).

Nous avons complété cette approche expérimentale par l’enregistrement des traces d’interaction, un recueil d’observations, un questionnaire et des entretiens.

Les traces d’interaction comportaient des informations telles que le nombre de problèmes résolus, le temps passé sur chaque étape ou encore le type d’erreurs rencontrées. Les observations devaient permettre de caractériser l’utilisation effective du logiciel, ainsi que les interactions entre apprenants et observateurs. Pour cela, des fiches individuelles d’observation ont été construites pour étudier l’activité des élèves lors de la réalisation des différentes étapes du cycle AMBRE. Les différentes questions posées par les apprenants, les difficultés qui les amenaient à faire appel aux encadrants et le type d’aide qui leur était apporté étaient également notés. Par ailleurs, après la dernière séance un questionnaire et un entretien collectif étaient proposés afin de connaître l’avis subjectif des apprenants sur les logiciels, telles que les difficultés ressenties ou leur satisfaction, et afin de recueillir des données personnelles, telle que la fréquence d’utilisation d’un ordinateur.

Principaux résultats

L’analyse des tests de résolution de problèmes (cf. Figure 5) montre une amélioration significative des performances après l’utilisation des logiciels (F(3,192)=18.1, p<0.001), on observe une amélioration des performances quel que soit le logiciel utilisé. Par ailleurs, l’analyse ne met pas en évidence d’effet du type de logiciel utilisé (F(2,64)<1, ns) ni d’interaction entre les variables logiciel et test (F(6,192)=1.15, p=0.33), ce qui signifie que les élèves qui ont utilisé AMBRE-add ne progressent pas plus que les élèves qui ont utilisé un logiciel contrôle.

images/sticef_2006_nogry_1405.jpg

Figure 5 : Nombre moyen de problèmes correctement résolus dans chaque test en fonction du logiciel utilisé.

D’après ces résultats, le cycle AMBRE semble avoir un impact équivalent aux autres méthodes de résolutions (voir (Nogry, 2005) pour une présentation et une discussion plus détaillées des résultats).

Quelles conclusions tirer de ces résultats ? Faut-il remettre en cause l’impact du cycle AMBRE sur l’apprentissage ? Comment tirer partie de cette expérience pour la conception de l’EIAH ? Être capable de concevoir une nouvelle version du logiciel ayant un impact sur l’apprentissage plus important que d’autres systèmes passe par une analyse des causes de l’absence de différence entre les groupes ayant utilisé les trois systèmes. L’analyse des traces d’interaction et des observations réalisées durant l’utilisation des logiciels peut apporter diverses explications à ces résultats quantitatifs.

D’abord, les traces d’interaction récoltées par les différents logiciels montrent que les enfants résolvent moins de problèmes avec AMBRE-add qu’avec le logiciel résolution simple (neuf problèmes versus quatorze problèmes résolus en moyenne sur six séances) ; le nombre de problèmes résolus avec AMBRE-add durant chaque séance est relativement faible (moins de deux problèmes résolus par séance). L’observation de l’utilisation et l’analyse des questions posées au cours des séances montrent que les enfants qui utilisent AMBRE-add éprouvent beaucoup de difficultés à lire les instructions, à lire et à comprendre les messages d’aide et d’explication, ainsi qu’à identifier les raisons de leurs erreurs. De plus, certains enfants adoptaient un comportement passif face au logiciel (ils n’essayaient pas de corriger leurs erreurs), ou une recherche de la solution par essai-erreur. Les difficultés rencontrées semblent avoir pesé sur la motivation des élèves, ces différents facteurs ont pu de surcroît limiter la progression de ces derniers. En outre, les questions posées durant l’utilisation des trois logiciels n’étaient pas de même nature et les réponses apportées par les encadrants dans les conditions contrôle ont pu biaiser la comparaison entre logiciels. Les utilisateurs de AMBRE-add étaient parfois bloqués dans une étape précise de la résolution ; les encadrants pouvaient alors répondre à leurs questions en reformulant les messages d’explication fournis par le système. En revanche, lorsque les utilisateurs du logiciel « résolution simple » proposaient une solution qui s’avérait fausse, le système leur demandait de recommencer, ce qui les conduisait souvent à une impasse. Ils demandaient alors aux encadrants de les aider, ce que ces derniers faisaient en leur expliquant comment résoudre le problème. Par ailleurs, l’utilisation des logiciels ayant lieu à l’école durant une séance de mathématiques, les encadrants apportaient aux apprenants les explications nécessaires, ce qui a pu constituer un biais pour l’expérience.

Ces résultats ont permis de mettre en évidence des problèmes d’utilisabilité et d’acceptabilité du système par des élèves de CE1 : AMBRE-add semble ne pas être tout à fait adapté aux caractéristiques des enfants de ce niveau, faibles lecteurs, pas toujours très autonomes ; le logiciel est pour certains aspects en contradiction avec les pratiques auxquelles les enfants étaient habitués (recherche collective, utilisation de dessins ou d’une barre de calcul pour trouver la solution). Cette évaluation nous a conduites à apporter différentes modifications à AMBRE-add. Les messages d’aide et de diagnostic ont été modifiés pour les rendre plus compréhensibles, un compagnon et un synthétiseur vocal ont été ajoutés au système afin d’assister la lecture sous une forme ludique. Par ailleurs, des activités plus simples sont développées dans l’EIAH dans le but de préparer les enfants à l’utilisation du logiciel ou de leur proposer une remédiation adaptée à leurs difficultés. Nous avons par ailleurs reconsidéré le public auquel AMBRE-add est destiné : il semble en effet être plus adapté à des enfants en classe de CE2.

Intérêts et limites des méthodes utilisées durant cette évaluation

Cette section propose une revue critique des apports et limites des différentes méthodes d’évaluation utilisées.

Notons d’abord que cette expérience s’est révélée très couteuse en temps de préparation (conception et implémentation des logiciels contrôles), de passation et d’analyse. Deux membres de l’équipe de conception ont été mobilisées une journée par semaine pendant six semaines pour encadrer les séances d’utilisation, une personne a également passé plusieurs journées à l’école pour les différents tests.

Méthode comparative. Comme nous l’avons présenté précédemment, les différents tests effectués montrent que AMBRE-add semble avoir un impact équivalent à celui des logiciels contrôle sur l’apprentissage visé. Cependant, le choix de la condition contrôle parait ici poser problème : les utilisateurs de AMBRE-add ont résolu moins de problèmes que les utilisateurs de la condition résolution simple. Par ailleurs, les questions posées et les aides fournies par les encadrants n’étaient pas de même nature dans les deux cas. Afin de préserver l’équivalence entre systèmes nous avions proposé des messages d’aide et d’explication proches dans les différents systèmes, mais cette expérience montre que ces messages n’étaient pas suffisants dans le cadre d’une résolution simple ; ils devaient être non seulement reformulés par les encadrants, mais aussi complétés par des informations proches de celles fournies dans l’étape de reformulation de AMBRE-add.

Compte tenu des différences observées concernant l’utilisation des trois logiciels, la portée des tests quantitatifs permettant de comparer les progrès des apprenants suivant le système utilisé est limitée.

En revanche, la caractérisation des différences d’activité réalisée avec chaque environnement grâce à des méthodes « on line » telles que les observations et les traces d’interactions se sont révélées très utiles pour informer la conception.

Observation de l’activité réalisée avec les logiciels. Comme nous l’avons vu, les informations récoltées durant les séances sur l’utilisation des différents logiciels et les questions posées par les apprenants se sont révélées d’une grande importance pour comprendre les résultats des analyses quantitatives. Toutefois, contrairement à ce que nous avions prévu, il n’a pas été possible d’observer systématiquement et pendant une durée prolongée l’utilisation des logiciels par les élèves. En effet, durant les premières séances, les encadrants ont été très sollicités par les apprenants. Lors de l’analyse nous avons néanmoins pu récolter des informations sur l’utilisation du logiciel à travers la description des difficultés observées par les encadrants lorsqu’ils intervenaient. Certaines erreurs et certaines difficultés récurrentes qui faisaient obstacle à l’utilisation du logiciel par les enfants, ainsi que certains comportements d’essai-erreur, ont été identifiés.

Notons cependant que ces informations n’ont pas été notées systématiquement, et dépendaient de la subjectivité des observateurs. Aussi les phénomènes observés ne sont pas quantifiables. Les traces d’interaction récoltées lors de l’utilisation des trois systèmes sont un bon complément des observations. Dans cette étude, elles ont été utilisées pour quantifier le nombre de problèmes résolus par séance ou encore le temps passé sur chaque problème et sur chaque étape. Faciles à acquérir, ces données ont apporté des indications relatives à la portée générale des observations.

Observation en classe de CE2

Suite à l’expérience précédente qui a mis en évidence un défaut d’acceptabilité de AMBRE-add en classe de CE1, nous avons réalisé une évaluation auprès d’enfants en classe de CE2. À ce niveau (Nogry, 2005), les problèmes additifs à une étape tels que ceux présentés par AMBRE-add continuent d’être traités, les enfants de ce niveau ayant encore des difficultés à modéliser ces problèmes ; cependant, ils ont moins de difficultés de lecture que les élèves de CE1 et sont plus autonomes. L’objectif de cette étude était de vérifier l’utilisabilité et l’acceptabilité de AMBRE-add auprès d’élèves de CE2. Pour cela nous avons observé la manière dont ils l’utilisent afin de comparer l’utilisation effective du logiciel (l’usage réel) à l’utilisation prescrite par les concepteurs et d’identifier les difficultés rencontrées par ce public.

Méthode

Dans cette expérience, 21 élèves en classe de CE2 ont utilisé AMBRE-add individuellement dans la salle informatique de l’école, durant quatre séances de 45 minutes. Durant ces séances, nous avons observé l’utilisation effective du logiciel. Au cours de chaque séance, l’un des encadrants observait tour à tour les enfants ; il notait sur une fiche d’observation des informations relatives à la réalisation de chaque étape, la réaction de l’enfant par rapport à l’aide et au diagnostic, ainsi que les difficultés rencontrées ; au cours de l’ensemble des séances, tous les enfants étaient observés au moins une fois. À l’issue de la quatrième séance, chaque élève était interrogé sur la stratégie qu’il employait dans l’étape d’adaptation (étape centrale dans le cycle AMBRE). De plus, nous avons recueilli des traces d’interaction. Enfin, à l’issue de la quatrième séance, nous avons fait remplir aux enfants un questionnaire ; les questions portaient sur les difficultés perçues par les apprenants, la compréhension du vocabulaire utilisé dans l’interface et la satisfaction des utilisateurs.

Résultats

Conformément à nos attentes, les élèves de CE2 ont été très autonomes et n’ont pas eu de difficulté à lire les consignes et les messages d’aide et de diagnostic ou à mettre en œuvre des techniques opératoires. Dès la seconde séance, ils ne posaient quasiment plus de questions. De plus, ils ont pris en main le logiciel en une seule séance. L’analyse des traces montre en outre qu’ils résolvaient les problèmes plus rapidement que les élèves de CE1.

Nous avons par ailleurs observé que l’utilisation effective du logiciel par les CE2 était plus proche de l’utilisation prescrite que ne l’était l’utilisation du logiciel par les CE1. Nous avons par exemple noté que plus de la moitié des élèves disent utiliser la solution du problème-type choisi pour trouver la solution du problème à résoudre lorsqu’ils éprouvent des difficultés, ce qui est conforme au principe proposé par AMBRE-add. Les élèves de CE2 semblaient également moins souvent faire appel à des stratégies d’essai-erreur. Cependant, cette observation a montré que certaines difficultés relatives à la navigation ou à la compréhension des messages dans l’étape de reformulation persistaient chez certains élèves. L’analyse de ces difficultés nous a conduites à concevoir un tutoriel mieux adapté aux apprenants, qui présente davantage le fonctionnement de la navigation dans le logiciel et facilite la compréhension du principe général du logiciel. Cette évaluation nous a par ailleurs encouragées à évaluer l’impact du logiciel sur l’apprentissage auprès d’élèves de CE2, AMBRE-add semblant être bien adapté à ce public.

Intérêts et limites de cette évaluation

Dans cette évaluation, nous avons limité le nombre de méthodes employées en nous centrant sur l’observation individuelle, l’analyse de traces d’interaction et de questionnaires. Ce dispositif a l’avantage de pouvoir être mis en place facilement, auprès d’un nombre de classes restreint, tout en apportant des résultats intéressants pour la conception : il permet de décrire la manière dont les élèves utilisent le logiciel en situation scolaire et les difficultés rencontrées par les apprenants. Il permet aussi de prendre en compte des variations individuelles. Cette forme d’évaluation donne des indications qui permettent de juger de l’utilisabilité et de l’acceptabilité du système auprès de ce public et dans ce contexte. Néanmoins, ce dispositif ne suffit pas pour quantifier finement les différents types de comportements observés, ou pour observer l’évolution de l’utilisation du logiciel par un apprenant au cours du temps. En outre, il n’apporte pas non plus d’information sur les progrès réalisés par l’apprenant grâce à l’utilisation du logiciel.

Évaluation comparative en classe de CE2

Les observations encourageantes réalisées avec des élèves de CE2 et l’intérêt que les enseignants portent à la démarche proposée par le logiciel et aux problèmes traités nous ont encouragées à tester l’impact de AMBRE-add sur l’apprentissage auprès de ce public. Pour cela nous avons réalisé une étude comparative conjuguée à des méthodes d’observation plus systématiques que dans les évaluations précédentes, et à une analyse des traces d’interaction. Suite aux limites mises en évidence dans la première évaluation comparative, nous avons choisi une seule condition contrôle qui consistait non pas à utiliser un logiciel présentant les mêmes problèmes, mais à réaliser une autre activité en classe avec l’enseignant ; différents tests étaient réalisés pour mesurer les progrès des apprenants. Cette condition contrôle avait simplement pour but de vérifier qu’AMBRE-add est bien source de progrès, et que la progression n’est pas due à un simple effet de répétition des tests présentés.

Méthode

23 élèves en classe de CE2 ont utilisé AMBRE-add en salle informatique durant quatre séances de 45 minutes. Durant cette évaluation, les enfants passaient d’abord un premier test (T1, cf. Figure 6) consistant à résoudre six problèmes additifs. Ensuite, dans chaque classe, la moitié des enfants utilisait AMBRE-add en salle informatique durant quatre séances, tandis que l’autre moitié restait en salle de classe avec l’enseignant pour réaliser une autre activité sans rapport avec la résolution de problèmes. À l’issue de ces quatre séances, les élèves passaient un second test (T2), constitué de six problèmes de même nature que dans le premier test. Ensuite, les deux groupes étaient inversés : les enfants n’ayant pas encore utilisé le logiciel utilisaient le logiciel pendant quatre séances, tandis que les autres restaient en classe (cf. Figure 6). À l’issue des ces quatre séances, un post-test était de nouveau proposé aux élèves (T3). Par ailleurs, durant chaque session, plusieurs apprenants étaient observés in(Baker et al., 2004)grille (proposée par (Baker et al., 20(Lloyd & Loper, 1986) une méthode de (Lloyd & Loper, 1986)) permettant de quantifier différents comportements prédéfinis était également remplie en observant chaque élève trois fois par séance. Enfin, un questionnaire était proposé aux élèves après la dernière séance d’utilisation.

images/sticef_2006_nogry_1406.jpg

Figure 6 : Déroulement de l’expérience d’évaluation comparative en classe de CE2.

Résultats

Notons tout d’abord que l’analyse de l’activité des apprenants durant l’utilisation du logiciel a confirmé les observations faites dans l’expérience précédente, la quantification des comportements a par exemple montré que le nombre d’élèves adoptant un comportement d’essai-erreur était limité.

images/sticef_2006_nogry_1407.jpg

Figure 7 : Nombre moyen de problèmes correctement résolus par condition et par test.

Par ailleurs, la comparaison des progrès réalisés par chacun des groupes dans les deux parties du test montre que l’utilisation de AMBRE-add est associée à un progrès plus important que la réalisation de l’activité contrôle (cf. Figure 7). Nous avons regroupé les résultats obtenus dans chaque condition (AMBRE-add vs contrôle)1 puis réalisé une analyse de variance sur les réponses correctes en considérant les variables logiciel (AMBRE-add vs condition contrôle) et test (avant vs après) comme des variables intra-sujets. Cette analyse met en évidence un effet du test (F(1,20)=10.4 ; p<.005) et une tendance à un effet d’interaction logiciel*test (F(1,20)=3.7 ; p=.070). Cette interaction permet de conclure que les progrès observés sont plus importants lorsqu’AMBRE-add est utilisé que dans la condition contrôle. AMBRE-add est donc source de progrès chez les enfants en classe de CE2. Cependant cette conclusion doit être nuancée car la valeur de l’effet d’interaction (p=.070) est légèrement supérieure au seuil de significativité admis (p=.05)2. À cela deux explications peuvent être avancées. D’une part le nombre de participants à l’expérience est assez faible, ce qui limite la puissance du test statistique. D’autre part, une analyse des résultats individuels montre que quelques élèves, en grande difficulté, ne progressent pas.

Pour aider ces élèves, une adaptation des activités proposées par le logiciel au niveau des élèves est souhaitable. L’équipe de conception envisageait déjà d’intégrer un modèle de l’apprenant au système. Cette évaluation confirme l’importance d’un tel modèle. En s’appuyant sur ce modèle, le système pourra par exemple adapter les problèmes proposés au niveau des élèves ou proposer des activités complémentaires destinées à remédier à des problèmes plus spécifiques rencontrés par les élèves en difficulté en les faisant travailler sur un point particulier.

Intérêts et limites de cette étude

Les résultats des deux études conduites en classes de CE2 sont assez satisfaisants du point de vue des concepteurs car ils montrent que l’EIAH AMBRE-add semble à la fois utilisable (bonne prise en main, bonne compréhension), utile (il permet aux élèves de résoudre des problèmes et est source de progrès) et acceptable par des élèves en classe de CE2.

Sur le plan méthodologique, les observations individuelles et la grille d’observation quantitative utilisée ont permis de caractériser l’activité des apprenants durant les séances d’utilisation, ainsi que les difficultés rencontrées. En outre, l’impact du logiciel sur l’apprentissage a pu être mesuré grâce à la méthode comparative utilisée. Notons cependant que les résultats auraient été plus robustes si l’expérience avait été conduite dans un nombre de classes plus important.

La condition contrôle choisie, plus simple à mettre en œuvre, a été suffisante pour tester l’impact du logiciel lui-même sur l’apprentissage. Néanmoins, nous sommes bien conscientes que cette évaluation ne permet pas de savoir si cet impact vient du principe proposé par AMBRE-add, guider la résolution du problème suivant les étapes du cycle AMBRE, ou du fait de l’entrainement répété à la résolution de problèmes. Toutefois, il nous a paru nécessaire de vérifier l’impact du logiciel lui-même avant d’évaluer l’effet du principe sous-jacent à l’EIAH en comparant celui-ci à des systèmes proposant d’autres formes de résolution.

En résumé, au cours du cycle de conception itérative du logiciel AMBRE-add, nous avons réalisé quatre évaluations, une première en laboratoire, puis les trois suivantes à l’école, auprès d’élèves de CE1 et CE2. Celles-ci nous ont permis d’identifier des problèmes de différentes natures ce qui nous a amené à réaliser différentes modifications du logiciel, à y ajouter des fonctionnalités et à reconsidérer le public pour lequel AMBRE-add est le plus adapté. Ces différentes évaluations ont ainsi conduit progressivement à la conception d’une version du logiciel qui semble utilisable, utile et acceptable par une majorité d’élèves des classes de CE2 testées.

4. Quelle démarche d’évaluation mettre en œuvre dans le cadre d’une conception itérative ?

Quelles conclusions tirer des différentes évaluations réalisées dans le cadre de la conception itérative de AMBRE-add ? Que peut-on généraliser à partir de cette expérience ?

Comme nous l’avons vu, différentes techniques peuvent être mises en œuvre au cours de la conception itérative d’un EIAH afin d’évaluer son utilisabilité, son utilité pour l’apprentissage visé et son acceptabilité. Il n’existe pas de consensus sur la manière de combiner ces méthodes. Dans le cadre de la conception itérative de AMBRE-add, nous avons donc établi une démarche d’évaluation.

Comme le soulignent Littman et Soloway « there can be no doubt that evaluating ITS is costly, frustrating and time-consuming. » (Littman et Soloway, 1988). Cependant, toutes les techniques d’évaluation n’ont pas le même coût. La mise en œuvre de cette démarche nous a permis de mieux caractériser leurs intérêts et leurs limites. Nous avons ainsi pu identifier pour chacune des techniques le type de connaissances qui peuvent être acquises, mais aussi des indications sur le « coût » lié à leur mise en œuvre, c’est-à-dire le temps de préparation, de mise en place et d’analyse de chaque méthode et les compétences qu’elles demandent. Sur cette base, nous proposons une démarche d’évaluation en situation de conception itérative d’EIAH supports à des situations d’apprentissages individuels.

Leçons tirées la conception itérative de AMBRE-add

Dans cette section nous tirons les leçons de la démarche de conception et d’évaluation adoptée pour AMBRE-add en étudiant les intérêts, limites et champs d’application des différentes méthodes utilisées.

L’évaluation par inspection, réalisée par un expert ou en suivant des critères d’évaluation ergonomiques, est considérée comme l’évaluation la moins couteuse et la plus rapide à mettre en œuvre. De plus, elle peut être utilisée très tôt dans le processus de conception (Bastien et Scapin, 2001), (Bastien et Scapin, 2004). Notre expérience a confirmé les qualités de cette méthode. Toutefois, les critères ergonomiques permettent d’évaluer uniquement les aspects utilisabilité du système. De plus, ces évaluations ne permettent pas d’éliminer tous les problèmes d’utilisabilité, comme l’ont montré pour AMBRE-add les évaluations empiriques qui ont suivi les inspections. Ceci s’explique par le fait que la personne qui fait l’inspection n’est pas un utilisateur ordinaire placé dans une situation d’utilisation courante (Burkhardt et Sperandio, 2004), cette différence étant d’autant plus importante lorsque l’apprenant est jeune. Les critères ergonomiques ont en effet été développés sur la base d’études chez les adultes et il n’existe pas encore de critères largement diffusés pour évaluer l’utilisabilité de logiciels destinés à des enfants. L’observation du public cible utilisant le logiciel est donc nécessaire pour compléter les inspections afin d’améliorer l’utilisabilité du système.

L’observation d’utilisateurs en laboratoire complétée par un entretien a permis de mettre en évidence les plus gros problèmes d’utilisabilité et d’identifier une difficulté d’ordre mathématique non détectée par les experts pédagogues qui avaient inspecté préalablement le logiciel. En revanche, la durée de l’observation, limitée à une séance d’utilisation n’a pas permis de différencier les difficultés de prise en main du logiciel de celles qui persistent au delà de la première utilisation. En outre, les enfants volontaires pour participer n’étaient pas tout à fait représentatifs des enfants de leur niveau. Une sélection plus rigoureuse des utilisateurs observés améliorerait la qualité des conclusions tirées d’une telle étude.

Cette forme d’évaluation, très informative quant à l’utilisabilité du logiciel, ne permet pas de juger de son impact sur l’apprentissage ou de son acceptabilité. Aussi pour l’évaluation de AMBRE-add nous avons complété cette approche en réalisant une seconde évaluation empirique afin de tester l’utilité du logiciel (nous pensions évaluer l’acceptabilité dans une étape suivante). L’évaluation de l’impact du logiciel sur l’apprentissage consiste à mettre en évidence un développement des connaissances. Cet impact étant directement lié à la manière dont le logiciel contraint l’activité de l’apprenant lors de l’utilisation du logiciel, il nous paraît important de caractériser cette activité ou les différentes formes qu’elle peut prendre. Aussi nous avons conjugué une approche comparative à des techniques permettant de caractériser l’activité des apprenants au cours d’une expérience réalisée à l’école auprès de plusieurs classes de CE1.

L’approche comparative avait pour but de vérifier que si un progrès est observé, celui-ci est bien lié à l’utilisation du logiciel plutôt qu’à des activités réalisées par ailleurs. Comme nous l’avons décrit précédemment, la comparaison de AMBRE-add avec les logiciels contrôles choisis a été problématique. Les élèves utilisant l’un des logiciels contrôle ont résolu plus de problèmes et ont posé des questions de nature différente. L’activité réalisée avec les trois logiciels était donc différente tant du point de vue de la méthode de résolution de problèmes que des interactions avec les encadrants ; les situations étaient alors peu comparables, ce qui limite la portée des résultats quantitatifs. En outre, les conditions contrôle choisies avaient plus pour objectif de mettre en évidence un effet du principe pédagogique sous-jacent au logiciel que de montrer l’impact du logiciel lui-même sur l’apprentissage. Il était sans doute trop ambitieux de chercher à tester l’effet du cycle AMBRE sur l’apprentissage avant d’avoir testé l’utilité du logiciel. Nous reviendrons sur la question du choix de la condition contrôle dans la section suivante.

Les techniques permettant de caractériser l’activité des apprenants durant l’utilisation des logiciels (observations, recueil des questions posées, traces d’interaction) ont été les plus informatives pour la conception ; les analyses faites à partir des observations et des questions posées ont permis de déterminer le temps nécessaire pour que l’EIAH soit pris en main, d’identifier les difficultés persistantes rencontrées par les apprenants ou encore de caractériser certains aspects de l’utilisation effective du logiciel. Dans les études conduites en CE2, des analyses plus fines de l’activité des apprenants ont été réalisées en complétant la prise de note « à la volée » par des observations plus systématiques des apprenants. Celles-ci ont permis de comparer l’utilisation effective du logiciel avec l’utilisation prescrite et d’identifier certaines difficultés. Nous avons également quantifié certains comportements caractéristiques adoptés par les apprenants au cours de chaque séance afin de suivre leur évolution. Notons que si les méthodes d’observation sont peu couteuses à mettre en place, leur analyse peu être longue et fastidieuse suivant le niveau de détail de l’activité auquel on souhaite accéder. De plus, ces méthodes posent des problèmes méthodologiques : à quel niveau de granularité analyser l’activité ? Quelle action est pertinente et porteuse de sens pour l’apprenant ? Certaines formes d’entretiens avec l’apprenant peuvent aider à interpréter l’observation. L’analyse des traces soulève le même type de questions. Utiliser les traces demande également une réflexion en amont pour déterminer quelles traces enregistrer et un travail d’analyse important pour les exploiter.

Dans la dernière expérience réalisée en CE2, la combinaison d’une approche comparative et d’une analyse de l’activité a permis de mettre en correspondance les progrès des apprenants avec leur activité durant les séances et les difficultés qu’ils ont rencontrées. Cette combinaison nous semble très prometteuse pour mieux comprendre les raisons d’un progrès ou d’une absence de progrès et proposer de nouvelles spécifications pour la conception.

L’analyse de l’activité instrumentée des apprenants et des usages est donc complémentaire de la mesure de l’impact d’un logiciel sur l’apprentissage ; de plus elle est très informative au cours de la conception itérative des EIAH. Elle peut faciliter l’identification des causes de certaines difficultés ressenties par les utilisateurs, et ce faisant peut faciliter la proposition de solutions alternatives par l’équipe de conception

L’intérêt de l’analyse de l’activité instrumentée et des usages d’un logiciel au cours de la conception a déjà été mis en évidence en ergonomie cognitive (voir par exemple (Béguin et Rabardel, 2000), (Decortis et al., 2001)). Néanmoins, dans le domaine des EIAH, cette analyse est souvent réservée à des logiciels déjà commercialisés ou à des sites web déjà accessibles aux apprenants (voir par exemple (Trouche, 2002), (De Vries et Tricot, 1998). Le domaine des sciences de l’éducation s’intéresse à cette question (voir par exemple (Bruillard et Baron, 2006)), mais étudie plutôt la manière dont les pratiques s’institutionnalisent sur des échelles de temps beaucoup plus longues (de l’ordre de plusieurs années). L’analyse des activités instrumentées pour la conception des EIAH n’est prise en compte que depuis peu de temps (voir (Hautecouverture et al., 2004), (Cottier et Choquet, 2005)) et est pour l’instant peu répandue.

Ces différentes considérations sont reprises dans la section suivante pour présenter la démarche d’évaluation que nous proposons.

Proposition d’une démarche d’évaluation en situation de conception itérative

Dans cette section nous proposons des recommandations, fondées sur notre expérience d’évaluation et enrichies d’apports théoriques, destinées à orienter le choix d’une démarche d’évaluation à appliquer en conception. Ces recommandations sont suivies par la proposition d’une démarche qui nous paraît bien adaptée pour évaluer, au cours d’une conception itérative, des logiciels supports aux situations d’apprentissage destinés à être utilisés en milieu scolaire.

Rappelons tout d’abord que la conception de dispositifs techniques se caractérise par une problématique de départ large et peu circonscrite, puis par une réduction progressive des possibilités de choix : l’équipe de conception dispose d’abord d’un grand nombre de degrés de liberté, puis ceux-ci se réduisent et les choix deviennent de plus en plus irréversibles (De Terssac, 1996). La conception des EIAH n’échappe pas à cette structuration, aussi le choix de l’ordre des évaluations réalisées et la manière dont les résultats de ces évaluations sont intégrés à la conception ont une réelle influence sur le produit final de la conception.

Trois dimensions doivent être évaluées : l’utilisabilité, l’utilité du système et son acceptabilité. D’après le modèle classique de Nielsen, l’utilisabilité est considérée comme une pré-condition à l’utilité du logiciel, l’utilité étant elle-même une pré-condition à l’acceptabilité du système (Nielsen, 1993). Suivant ce modèle, une démarche qui consiste à évaluer l’utilisabilité, puis l’utilité et enfin l’acceptabilité s’impose. Cependant, supposer que l’utilité est nécessaire pour que le logiciel soit acceptable ne signifie pas qu’elle soit suffisante pour assurer l’acceptabilité du logiciel (Dillon et Morris, 1996). Que faire alors si, à un stade avancé de la conception, l’évaluation d’un logiciel utilisable et utile met en évidence une faible acceptabilité ? Pour éviter une telle situation, (Tricot et al., 2003) proposent que l’évaluation de l’utilisabilité soit réalisée conjointement à l’évaluation des autres dimensions. L’expérience d’évaluation en conception de l’EIAH AMBRE-add va dans ce sens : s’il n’était pas prévu d’évaluer l’acceptabilité au cours de l’expérience de CE1, nous nous sommes rendues compte que cette dimension était importante à prendre en compte dès ce moment, les observations réalisées lors de l’utilisation en milieu scolaire permettant d’accéder à différentes indications de l’acceptabilité du système.

Le critère du coût de mise en place d’une évaluation peut également être pris en compte dans le choix des méthodes à utiliser. Ce critère doit cependant être rapporté au type de connaissances issues de cette évaluation utilisables pour la conception. Par exemple, même si la mise en place d’une évaluation en classe pendant plusieurs séances est couteuse, elle est indispensable pour évaluer à la fois l’utilisabilité et l’acceptabilité d’un EIAH destiné à être utilisé en situation scolaire.

Sur la base de ces considérations, la démarche que nous proposons combine différentes techniques afin de prendre en compte aussi précocement que possible l’utilisabilité, l’utilité du système et son acceptabilité au cours du cycle de conception itérative. Cette démarche est plus particulièrement destinée à la conception d’EIAH supports aux situations d’apprentissage, qui contraignent l’activité de l’apprenant afin de le conduire à acquérir de nouvelles compétences ou connaissances et notamment à ceux qui sont destinés à être utilisés individuellement, au sein d’une institution à visée éducative.

Après avoir défini les spécifications du logiciel et réalisé une première maquette, une première étape consiste à effectuer une évaluation par inspection. Cette méthode présente l’avantage de pouvoir être mise en œuvre très précocement sans avoir besoin d’implémenter toutes les fonctionnalités du logiciel et peut permettre de réorienter la conception à moindre coût. Cette analyse peut porter sur l’utilisabilité du système en utilisant les nombreux critères existants, sur des aspects pédagogiques ou didactiques en faisant appel à des experts de ces domaines, ou encore sur l’acceptabilité a priori du système. Sur cette base, de nouvelles spécifications peuvent être produites jusqu’à l’implémentation d’un système réel techniquement stable.

Des évaluations empiriques de ce système, conduites en laboratoire, sont alors nécessaires, particulièrement si les utilisateurs visés sont des enfants pour qui peu de recommandations ergonomiques existent. L’observation de l’utilisation du logiciel par des utilisateurs représentatifs et un entretien individuel permet de mettre en évidence les principaux défauts d’utilisabilité et éventuellement des difficultés d’ordre didactique, pour aboutir à de nouvelles spécifications et à une modification du prototype. Une utilisation répétée du logiciel pendant plusieurs séances peut s’avérer utile pour dépasser la phase de prise en main et observer la manière dont les utilisateurs utilisent le logiciel à plus long terme. Cette évaluation peut être réitérée plusieurs fois si la première évaluation conduit à des modifications importantes du logiciel.

L’étape suivante consiste à observer et à analyser les activités des apprenants lors de l’utilisation du logiciel en situation scolaire. En effet, les usages d’un dispositif technique tel qu’un EIAH ne dépendent pas uniquement de l’outil lui-même mais émergent également en fonction des schèmes des apprenants (Rabardel, 1995), et en interaction avec les pratiques déjà existantes et les caractéristiques de l’institution dans laquelle elle est intégrée (Hussenot, 2005). L’analyse de l’activité peut apporter des informations sur l’utilisabilité (par exemple le temps nécessaire pour que l’EIAH soit pris en main ou les difficultés persistantes), l’acceptabilité (par exemple l’évolution de la motivation ou la compatibilité avec l’organisation du temps et des lieux) ou sur les différents types d’usage du système et leur évolution au fur et à mesure des séances. Elle peut également permettre de prendre en compte les variations interindividuelles dans l’utilisation du logiciel. L’analyse des activités instrumentées, et plus largement des usages, peut être réalisée à partir d’observations, de l’analyse des traces d’interaction, et d’entretiens permettant de prendre en compte le point de vue subjectif du sujet, sur son activité (ses motivations, le sens qu’il donne à son activité). Cette analyse peut conduire à des modifications du système et éventuellement à la constitution d’un scénario pédagogique pour faciliter la prise en main du logiciel et orienter son utilisation (Hautecouverture et al., 2004), (Trouche, 2002). Elle pourra être répétée au cours du cycle de conception, afin d’affiner la conception du produit à travers des observations d’usage régulières (Hautecouverture et al., 2004).

De notre point de vue, cette analyse de l’activité doit être combinée dès que possible à une analyse du développement des connaissances ou compétences du sujet au cours de l’activité. En effet, une mise en correspondance du développement des connaissances et compétences individuelles avec les activités que l’apprenant réalise au sein de l’environnement d’apprentissage peut permettre de mieux comprendre quel type d’activité est associé à un développement. Cette analyse peut être basée sur l’évolution des réponses des sujets produites au cours du temps dans l’interaction avec l’EIAH, ou par des tests adaptés au domaine étudié donnés avant, pendant et après l’utilisation du système.

Le type d’analyse de l’activité et le type de tests destinés à mesurer l’apprentissage doivent être choisis en fonction du domaine d’application de l’EIAH ou des connaissances en jeu et adaptés à l’avancement de la conception. Dans les phases initiales, une analyse inductive (non guidée par des hypothèses) faite à partir d’un dispositif d’observation et d’analyse peu contraignant, peut permettre d’observer des phénomènes importants inattendus, et d’anticiper des modifications du logiciel. à ce moment là, les tests destinés à mesurer l’apprentissage peuvent être utilisés à titre indicatif, pour mettre en évidence des tendances plutôt que pour obtenir des mesures très précises et des différences statistiquement valides.

Pour augmenter la validité des méthodes destinées à mesurer le développement des connaissances ou des compétences, une condition contrôle peut être mise en place. Le choix de cette condition pose des difficultés, nous proposons ici quelques pistes pour orienter ce choix. Dans un premier temps, une comparaison de l’EIAH à une situation sans intervention cf. (Ainsworth et al., 1998) peut apporter des informations intéressantes concernant l’utilité du système. En effet, sous réserve que les tests proposés soient adaptés, si un progrès est observé, cette comparaison pourra permettre de vérifier que l’effet obtenu n’est pas du à une activité réalisée par ailleurs (par exemple avec l’enseignant). Une analyse comparative peut également être mise en œuvre pour atteindre d’autres objectifs, par exemple pour tester l’effet d’une fonction particulière du logiciel. L’EIAH est alors comparé à une autre version du logiciel (Aleven et al., 1999), (Aleven et Koedinger, 2002), (Luckin et al., 2001). Dans cette condition, on s’intéresse moins à l’utilité du système lui-même qu’à l’utilité de l’une des fonctionnalités. Mais comme on l’a vu dans notre propre expérience, la définition de l’autre version de l’EIAH est délicate, et il convient d’être attentif à l’activité que cette autre version suscite pour pouvoir interpréter les résultats de la comparaison.

Enfin, notons que les approches comparatives sont souvent utilisées pour comparer le logiciel conçu à un logiciel existant ou à l’efficacité d’un enseignement classique dispensé par un enseignant cf. (Shute et Glaser, 1990), (Koedinger et al., 1997), (Meyer et al., 1999). De notre point de vue, la comparaison à ces conditions contrôle relèvent plus de l’évaluation en fin de conception ou a posteriori, que de l’évaluation en conception. Ces évaluations ont alors pour but de mettre en évidence la supériorité de l’EIAH (il conduit à apprendre plus vite, mieux, ou à l’acquisition de connaissances ou compétences complémentaires), par rapport aux produits ou aux méthodes pédagogiques existants pour enseigner des contenus similaires.

Pour finir, précisons que cette démarche doit bien sûre être adaptée en fonction des objectifs et des contraintes de l’équipe de conception. Elle nous semble applicable à différents domaines, à condition d’adapter les méthodes mises en œuvre pour évaluer l’apprentissage, celles-ci étant totalement dépendantes des connaissances ou compétences à acquérir par l’intermédiaire de l’EIAH.

Conclusion

Devant la multiplicité des aspects à évaluer et des méthodes proposées, quelle démarche d’évaluation mettre en œuvre en conception ?

Nous avons été confrontées à cette question lors de la conception de l’EIAH AMBRE-add, et, pour y répondre, nous nous sommes appuyées sur les études existantes afin de mettre en place plusieurs évaluations combinant différentes méthodes afin d’évaluer l’utilisabilité et l’utilité du logiciel. Dans cet article, nous avons décrit les méthodes existantes, puis nous avons procédé à une revue critique des différentes évaluations conduites lors de la conception de AMBRE-add. Nous avons ainsi mis en évidence les apports à la conception et les limites des différentes méthodes utilisées. Cette analyse critique nous a conduites à mettre en évidence l’intérêt d’analyser les activités des apprenants lors de l’utilisation du système très tôt au cours de la conception et à proposer une démarche d’évaluation précoce en situation de conception. Ainsi, nous proposons d’évaluer d’abord l’utilisabilité de l’EIAH en utilisant les méthodes décrites en IHM, puis d’analyser les activités en situation réelle d’utilisation pendant plusieurs séances afin de compléter l’évaluation de l’utilisabilité, d’identifier les différentes formes d’usage du logiciel et de récolter des données sur l’acceptabilité. Cette analyse des usages peut être combinée à une évaluation de l’impact de l’EIAH sur l’apprentissage afin d’identifier les formes d’usages associées à un apprentissage. Chacune de ces évaluations pourra conduire à produire des spécifications pour implémenter une nouvelle version du logiciel dans le cadre d’une conception itérative.

Remerciements

Cette recherche a été soutenue par le programme pluridisciplinaire STIC-SHS « Société de l’Information » du CNRS. Nous remercions également les informaticiens qui ont développé le logiciel, les enseignants qui ont participé à cette étude ainsi que les trois relecteurs de cet article pour leurs remarques constructives.

BIBLIOGRAPHIE

AINSWORTH S. E., WOOD D., O'MALLEY C. (1998). There is more than one way to solve a problem: Evaluating a learning environment that supports the development of children's multiplication skills, Learning and Instruction, Vol 8 n°2, 141-157.

ALEVEN V., KOEDINGER K. R. (2002). An Effective Meta-cognitive Strategy: Learning by Doing and Explaining with a Computer-Based Cognitive Tutor. Cognitive Science, Vol 26 n°2, 147-179.

ALEVEN V., KOEDINGER K. R., CROSS K. (1999). Tutoring answer explanation fosters learning with understanding. Proceedings of AIED-99, Amsterdam, Netherland, IOS Press, 199-206.

BAKER R.S., CORBETT A.T., KOEDINGER K.R. (2004). Detecting Student Misuse of Intelligent Tutoring Systems. Proceedings of ITS'2004, Maceio, Brasil, Springer, 531-540.

BASTIEN C., SCAPIN D. (2004). La conception de logiciels interactifs centrés sur l’utilisateur : étapes et méthodes. In Ergonomie, Falzon P. (ed), Paris : PUF, 451-462.

BASTIEN J. M. C., SCAPIN D. L. (2001). Évaluation des systèmes d'information et Critères Ergonomiques. In C. Kolski (Ed.), Systèmes d'information et interactions homme-machine. Environnement évolués et évaluation de l'IHM. Interaction homme-machine pour les SI. Paris : Hermes, Vol. 2, p. 53-79.

BASTIEN C., SCAPIN D. (1993). Critères ergonomiques pour l'évaluation des interfaces utilisateurs, RT n°156, INRIA.

BARFURTH M.A., BASQUE J., CHOMIENNE M., WINER L.R. (1994). Les instruments de collecte de données de recherche qualitative dans des environnements pédagogiques informatisés. In Apprendre dans des environnements pédagogiques informatisés, Bordeleau P. (ed), Editions Logiques, 485-548.

BéGUIN P., RABARDEL P. (2000). Concevoir des activités instrumentées. Revue d’Intelligence Artificielle, Vol 14, 35-54.

BURKHARDT J.-M., SPERANDIO J.-C. (2004). Ergonomie et conception informatique. In Ergonomie, Falzon P. (ed), Paris : PUF, 437-450.

BRUILLARD, E., BARON, G.-L. (2006). Usages en milieu scolaire : caractérisation, observation et évaluation. In Environnements informatiques pour l’apprentissage humain, Grandbastien M., Labat J.-M. (eds), chapitre 12, Hermès-Lavoisier.

CAVERNI J.-P. (1988). La verbalisation comme source d'observables pour l'étude du fonctionnement cognitif. In Psychologie cognitive, modèles et méthodes. Caverni J.P., Bastien C., Mendelsohn P., Tiberghien G. (eds), Presse Universitaire de Grenoble, 253- 273.

COTTIER P., CHOQUET C. (2005). De l'usager construit à l'usager participant. Actes de EIAH’2005, Montpellier, France, 449-454.

DAVIS, F. D. (1986). A technology acceptance model for empirically testing new end-user information systems: Theory and results. (Doctoral dissertation, Sloan School of Management, Massachusetts Institute of Technology).

DAVIS, F. D. (1989). Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Quarterly, 13(3), p. 319-339.

DECORTIS F., DAELE L., POLAZZI L., RIZZO A., SAUDELLI B. (2001). Nouveaux instruments actifs et activités narratives. Revue d’Interaction Homme-Machine, Vol 2 n°2, 1-30.

DELOZANNE, E. (2006), Interfaces en EIAH, In Environnements informatiques pour l’apprentissage humain, Grandbastien M., Labat J.-M. (eds), chapitre 10, Hermès-Lavoisier, 223-244

DE TERSSAC, G. (1996). Le travail de conception : de quoi parle-t-on ? In Coopération et conception. De Terssac G., Friedberg E. (eds), Octares, 1-22.

DE VRIES E. (2001). Les logiciels d’apprentissage, panoplie ou éventail ? Revue Française de Pédagogie, Vol 137, 105-116.

DE VRIES E., TRICOT A. (1998). Évaluer l’utilisation d’hypermédias : intérêts et limites des variables de performance. Hypertextes et Hypermédias, n° hors série, 175-190.

DILLON A., MORRIS M. (1996). User acceptance of information technology : theories and models. Annual Review of Information Science and Technology, p.3-32.

DUBOURG X., TEUTSCH, P. (1997). Interface Design Issues in Interactive Learning Environments. Proceedings of IFIP WG 3.3 Working Conference: Human-Computer Interaction and Educational Tools, Sozopol, Bulgarie.

FARENC N. (1997). ERGOVAL : une méthode de structuration des règles ergonomiques permettant l’évaluation automatique d’interfaces graphiques. Thèse de doctorat de l’Université Toulouse I.

FASSE B.B., KOLODNER J.L. (2000). Evaluating Classroom Practices Using Qualitative Research Methods: Defining and Refining the Process. Proceedings of International Conference of the Learning Sciences, 93-198.

GAGNé R.M., BRIGGS L.J., WAGER W.W. (1988). Principles of instructional design. New York, Holt, Renhart, Winston (eds).

GREENO J.G., RILEY M.S. (1987). Processes and development of understanding. In Metacognition, motivation and understanding, Weinert F.E., Kluwe R.H. (eds), 289-313.

GUIN D. (1991). La notion d'opérateur dans une modélisation cognitive de la compréhension des problèmes additifs. Math. Inf. Sci. Hum. Vol. 113, 5-33.

GUIN-DUCLOSSON N., JEAN-DAUBIAS S., NOGRY S. (2002). The AMBRE ILE: How to Use Case-Based Reasoning to Teach Methods. Proceedings of ITS’2002, Biarritz, France, Springer, 782-791.

HAUTECOUVERTURE J.-C., GRéGORI N., PAQUELIN D., CHAROY F., GODART C., PATTEN M., FAUGERAS I. (2004). Analyse d’usage d’une plate-forme de coopération : Usage et développement logiciel. Cahiers romans de sciences cognitives, Vol 1 n°3, 45-77.

HOECKER D., ELIAS G. (1986). User evaluation of the LISP intelligent tutoring system. Proceedings of the human factors society, Vol 32 n°3, 313-324.

Hû O., TRIGANO P. (1998). Propositions de critères d’évaluation de l’interface homme-machine des logiciels multimédias pédagogiques. Proceedings of IHM’98, Nantes.

HUSSENOT, A. (2005). Trajectoires d'usage d'une solution TIC : traduction, "enaction" et appropriation. 3ème GDR TIC et Société, Paris.

JEAN S. (2000). PÉPITE : un système d'assistance au diagnostic de compétences, Thèse de doctorat de l'Université du Maine.

JEAN-DAUBIAS S. (2003). Vers une définition des spécificités des EIAH dédiés à l'évaluation pour l'application de recommandations ergonomiques. Revue d'Interaction Homme-Machine, Vol 4 - n°1, 2003, 535-538.

JEAN-DAUBIAS S. (2004). De l'intégration de chercheurs, d'experts, d'enseignants et d'apprenants à la conception d'EIAH, Actes de TICE 2004, Compiègne, 290-297.

KOEDINGER, K. R., ANDERSON, J. R., HADLEY, W. H., & MARK, M. A. (1997). Intelligent tutoring goes to school in the big city. International Journal of Artificial Intelligence in Education, Vol 8, 30-43.

KOLSKI C. (2001), Analyse et conception de l’IE : interaction homme-machine par les SP1, Hermès, Paris.

LEWIS C., POLSON P.G., WHARTON C., RIEMAN J. (1990). Testing a walkthrough methodology for theory-based design of walk-up-and-use interfaces. Proceedings of CHI'90: Human Factors in Computing Systems, ACM: New York, 235-242.

LITMANN D., SOLOWAY E., 1988. Evaluating ITSs: The cognitive science perspective. In Foundations of Intelligent Tutoring Systems, Polson M., Richardson J. J. (eds), Hillsdale, NJ: LEA.

LLOYD J.W., LOPER A.B. (1986). Measurement and Evaluation of Task-Related Learning Behavior: Attention to Task and Metacognition. School Psychology Review, Vol.15 n°3, 336-345.

LUCKIN R., PLOWMAN L., LAURILLARD D., STRATFOLD M., TAYLOR J., (2001). Narrative evolution: learning from students' talk about species variation. International Journal of AIED, Vol 12, 100-123.

MARTHE P. (1982). Problèmes de type additif et appropriation par l'élève des groupes additifs Z et D entiers relatifs et décimaux relatifs. Thèse de doctorat, EHESS, Paris.

MEYER T. N., MILLER T. M., STEUCK K., KRETSCHMER M. (1999). A multi-year large-scale field study of a learner controlled intelligent tutoring system. Proceedings of AIEd’99, Lajoie S., Vivet M. (eds), 191-198.

NANARD J., NANARD M. (1998). La conception d’hypermédias, In Les hypermédias, approches cognitives et ergonomiques, Tricot A., Rouet J.-F. (eds), Paris, Hermès, 15-34.

NIELSEN J. (1993). Usability Engineering, Academic Press.

NIELSEN J., LANDAUER T.K. (1993). A mathematical model of the finding of usability problems. Proceedings of ACM INTERCHI'93 Conference, Amsterdam, The Netherlands, 206-213.

NOGRY S. (2005). Faciliter l’apprentissage à partir d’exemples en situation de résolution de problèmes - Application au projet AMBRE. Thèse de doctorat de l’Université Lumière Lyon 2.

NOGRY S., JEAN-DAUBIAS S., OLLAGNIER-BELDAME M. (2004). Évaluation des EIAH, une nécessaire diversité des méthodes. Actes de TICE’2004, Compiègne, France, 265-271.

NOGRY S., JEAN-DAUBIAS S., DUCLOSSON N. (2004). ITS evaluation in classroom: the case of the AMBRE-awp. Proceedings of ITS 2004, Maceio, Brasil, springer, 511-520.

RABARDEL P. (1995). Les hommes et les technologies, approche cognitive des instruments contemporains. Paris, Colin.

RILEY M.S., GREENO J.G., HELLER J.I. (1983). Development of children's problem-solving ability in arithmetic. In The development of mathematical thinking, Ginsburg H.P. (ed). New-York: Academic Press.

ROUET J.-F., PASSERAULT J.-M. (1999). Analyzing learner hypermedia interaction: An overview of online methods. Instructional Science, Vol 27, 201–219.

SCHNEIDERMAN B. (1992). Designing the User Interface: Strategies for Effective Human-Computer Interaction. Reading, MA: Addison-Wesley.

SENACH B. (1993). L'évaluation ergonomique des interfaces homme – machine. In L'ergonomie dans la conception des projets informatiques. Sperandio J.-C. (ed). Octares : 69-122.

SHUTE V.J., REGIAN J. W. (1993). Principles for Evaluating Intelligent Tutoring Systems. Journal of Artificial Intelligence and Education, Vol 4 n° 2/3, 245-271.

SHUTE V. J., GLASER R. (1990). A large-scale evaluation of an intelligent discovery world: Smithtown. Interactive Learning Environments, Vol 1, 51-77.

SQUIRES D., PREECE J. (1999). Predicting quality in educational software: Evaluating for learning, usability, and the synergy between them. Interacting with Computer, Vol 11 n°5, 467-483.

TCHOUNIKINE P. (2002). Pour une ingénierie des environnement informatiques pour l’apprentissage humain. Revue Information-Interaction-Intelligence, Vol 2 n°1, 59-95.

TRICOT A., PLéGAT-SOUTJIS F., CAMPS J.-F., AMIEL A., LUTZ, G., MORCILLO, A. (2003). Utilité, utilisabilité, acceptabilité : interpréter les relations entre trois dimensions de l’évaluation des EIAH. Actes de EIAH 2003, Strasbourg, France, Desmoulins C., Marquet P., Bouhineau D. (eds), 391-402.

TRICOT A., LAFONTAINE J. (2002). Une méthode pour évaluer conjointement l'utilisation un outil multimédia et l'apprentissage réalisé avec celui-ci. Le Français dans le Monde, 41-52.

TROUCHE L. (2002). Genèses instrumentales, aspects individuels et collectifs. In Calculatrices symboliques - Transformer un outil en un instrument du travail mathématique : un problème didactique, Guin N., Trouche L. (eds), la pensée sauvage édition, 243-275.

VERGNAUD G. (1982). A classification of cognitive tasks and operations of the thought involved in addition and substraction problems. In Addition and substraction: A cognitive perspective, Carpenter P.T., Moser, J.M., Romberg, T.A. (eds), Hillsdale, Erlbaum, 39-58.

VIVET M. (1996). Evaluating Educational Technologies: Evaluation of Teaching Material Versus Evaluation of Learning? Proceedings of CALISCE, 37-38.


1 Le fait de contrebalancer l’ordre de confrontation au logiciel peut être considéré comme une précaution expérimentale plutôt qu’une variable, ce qui autorise à regrouper les résultats obtenus par les deux groupes pour chaque condition. Notons que dans cette analyse, les scores obtenus au second test sont pris en compte deux fois.

2 Habituellement, on considère qu’une différence entre deux groupes n’est pas due au hasard lorsque la probabilité est inférieure à 5% (p<.05).


À propos des auteurs

Sandra NOGRY est post-doctorante, rattachée au LIRIS (Laboratoire d'InfoRmatique en Images et Systèmes d'information, UMR 5205) au sein de l'équipe SILEX (Supporting Interaction and Learning by Experience) et chercheuse associée à l’équipe Compréhension, Raisonnement et Acquisition de Connaissances (laboratoire paragraphe, Université Paris 8). Ses recherches portent sur l’évaluation des EIAH, la conception, l’apprentissage et la résolution de problèmes par analogie.

Adresse : Université de Lyon, Lyon, F-69003, France ; université Lyon 1 ; LIRIS - UMR5205, Villeurbanne, F-69622, France

Courriel : sandra.nogry@gmail.com

Toile : http://liris.cnrs.fr/sandra.nogry/

Stéphanie JEAN-DAUBIAS est maître de conférences en informatique à l’Université Claude Bernard Lyon 1. Elle est rattachée au LIRIS (Laboratoire d'InfoRmatique en Images et Systèmes d'information, UMR 5205) au sein de l'équipe SILEX (Supporting Interaction and Learning by Experience). Ses recherches, mises en œuvre au sein des projets PERLEA et AMBRE, portent sur la personnalisation des apprentissages, en cherchant à proposer aux enseignants des outils les aidant à effectuer cette personnalisation.

Adresse : Université de Lyon, Lyon, F-69003, France ; université Lyon 1, Lyon, F-69003, France ; LIRIS - UMR5205, Villeurbanne, F-69622, France

Courriel : Stephanie.Jean-Daubias@liris.univ-lyon1.fr

Toile : http://liris.cnrs.fr/stephanie.jean-daubias/

Nathalie Guin-Duclosson est maître de conférences en informatique à l'Université Lyon 1. Elle est rattachée au LIRIS (Laboratoire d'InfoRmatique en Images et Systèmes d'information, UMR 5205) au sein de l'équipe SILEX (Supporting Interaction and Learning by Experience). Ses recherches portent sur les systèmes à base de connaissances pour les EIAH. Ses thèmes d'intérêt actuels sont liés à la personnalisation des EIAH : interprétation des traces d'activités, profils d'apprenants, génération d'activités adaptées. L'ensemble des ces thématiques de recherches sont mises en œuvre au sein du projet AMBRE.

Adresse : Université de Lyon, Lyon, F-69003, France ; université Lyon 1, Lyon, F-69003, France ; LIRIS - UMR5205, Villeurbanne, F-69622, France

Courriel : Nathalie.Guin@liris.univ-lyon1.fr

Toile : http://liris.cnrs.fr/nathalie.guin