Clear Sky Science · fr

IA explicable en éducation : intégrer les connaissances du domaine éducatif dans le modèle d’apprentissage profond pour améliorer la prédiction des performances des élèves

2026-02-18 · Retour à l’index

Pourquoi des prédictions plus intelligentes sur les élèves comptent

Les établissements scolaires recourent de plus en plus à l’intelligence artificielle pour repérer les élèves susceptibles de rencontrer des difficultés et ceux qui pourraient nécessiter un soutien supplémentaire. Mais lorsque ces systèmes fonctionnent comme des boîtes noires hermétiques, ils peuvent mettre en avant des motifs surprenants — par exemple en suggérant que la vie sentimentale d’un adolescent compte plus que son temps d’étude — laissant enseignants et parents incertains quant à la fiabilité des résultats. Cet article montre comment construire un système de prédiction des performances des élèves qui non seulement améliore les prévisions des notes en mathématiques, mais « raisonne » aussi d’une manière conforme à ce que des décennies de recherches en éducation nous enseignent déjà.

Des données brutes aux alertes de risque

Les chercheurs ont travaillé sur un jeu de données public bien connu comprenant 395 lycéens portugais, chacun décrit par 30 éléments d’information. Ceux-ci allaient des données démographiques de base (âge, sexe, taille de la famille) à des éléments liés à l’école (temps d’étude, absences, cours supplémentaires) et des aspects de la vie sociale et du bien‑être (relations familiales, temps libre, sorties entre amis). L’objectif était de prédire la note finale en mathématiques de chaque élève puis de les regrouper en trois catégories pratiques : susceptible d’échouer, dans la moyenne, ou excellent. Un modèle d’apprentissage profond appelé réseau de neurones artificiels (RNA) a été entraîné pour détecter des motifs subtils à travers tous ces facteurs.

Quand la boîte noire se trompe

Bien que le RNA initial ait atteint une précision respectable, un examen plus attentif a révélé quelque chose d’inquiétant. À l’aide d’une technique d’explicabilité moderne connue sous le nom de SHAP, les auteurs ont analysé sur quelles caractéristiques le modèle s’appuyait le plus. Certaines de ses signaux les plus forts contredisaient des résultats bien établis en éducation. Par exemple, l’école fréquentée par l’élève, son statut amoureux et la fréquence de ses sorties semblaient anormalement influents, tandis que des facteurs validés par la recherche comme le niveau d’éducation des parents, le métier de la mère, la fréquentation précoce de la garderie, la taille de la famille et le temps d’étude hebdomadaire recevaient étonnamment peu de poids. Ces discordances suggéraient que le RNA se focalisait sur des particularités de ce jeu de données plutôt que sur des relations que les éducateurs jugent significatives ou justes.

Apprendre au réseau ce que les éducateurs savent déjà

Pour réaligner le modèle avec les connaissances éducatives, les auteurs ont proposé une nouvelle stratégie d’entraînement appelée algorithme Students’ Performance Prediction Explanation (SPPE). D’abord, ils ont passé en revue la littérature en éducation pour répartir les caractéristiques en deux groupes approximatifs : celles systématiquement liées à la réussite (comme le temps d’étude, le niveau d’éducation des parents et les aspirations à l’enseignement supérieur) et celles qui sont des prédicteurs plus faibles ou incertains (comme le statut amoureux ou les évaluations génériques des relations familiales). Lors de l’entraînement, le SPPE incite le réseau de neurones à augmenter sa dépendance au premier groupe et à atténuer celle au second. Il le fait en surveillant la contribution de chaque caractéristique aux prédictions et en ajoutant une pénalité douce chaque fois que le schéma d’importance appris par le réseau s’écarte de ces connaissances du domaine.

Des explications plus claires et des prédictions plus nettes

Après les ajustements SPPE, le raisonnement interne du modèle a évolué de manière à mieux correspondre aux attentes des éducateurs. Le temps d’étude, le milieu parental, la taille de la famille et la scolarisation précoce ont gagné en importance, tandis que l’identité de l’école, les sorties et le statut amoureux sont devenus moins dominants. Fait tout aussi important, ce réalignement n’a pas sacrifié la précision — il l’a augmentée. Pour prédire dans laquelle des trois tranches de notes un élève se situerait, le réseau amélioré a correctement classé environ les deux tiers des élèves, contre un peu plus d’un tiers pour le modèle initial. Les mesures usuelles de précision, rappel et le score F1 combiné ont toutes augmenté sensiblement, et des tests statistiques ont confirmé que les gains étaient peu susceptibles d’être dus au hasard. Les auteurs ont également montré que la même stratégie SPPE améliorait plusieurs autres architectures de réseaux neuronaux, ce qui suggère que l’approche est robuste plutôt qu’un coup d’essai isolé.

Ce que cela signifie pour les classes et l’IA

Pour les enseignants et les décideurs, l’étude propose une voie de sortie du dilemme inconfortable entre des modèles précis mais opaques et des modèles transparents mais faibles. En intégrant l’expertise humaine dans le processus d’apprentissage lui‑même, le SPPE produit des prédictions à la fois plus fiables et plus faciles à justifier : le temps passé à étudier et les ambitions éducatives à long terme comptent davantage que l’école que fréquente l’élève. Bien que le travail se concentre sur un jeu de données en mathématiques provenant du Portugal, le message plus large est que l’IA explicable et guidée par les connaissances peut soutenir des décisions d’aide aux élèves plus justes et mieux éclairées — à condition que le contexte local et le jugement d’experts soient intégrés dès le départ.

Citation: Qiang, M., Liu, Z. & Zhang, R. Explainable AI in education: integrating educational domain knowledge into the deep learning model for improved student performance prediction. Sci Rep 16, 9515 (2026). https://doi.org/10.1038/s41598-026-40538-y

Mots-clés: prédiction des performances des élèves, IA explicable, fouille de données éducatives, réseaux neuronaux en éducation, intégration des connaissances du domaine