DL4T
Note rédigée par Léonie Blaszyk-Niedergang et Raphaël Mourère
Le Comité d’éthique pour les données d’éducation a été installé par le Ministre de l’Éducation nationale et de la Jeunesse, Jean-Michel Blanquer, le 21 octobre 2019. Celui-ci a pour mission de conduire et développer la réflexion sur les aspects éthiques associés à l’utilisation des données d’éducation. Le Comité définit la donnée d’éducation de manière extensive, comme la donnée numérique personnelle « liée à la vie scolaire et concernant différents acteurs de la communauté éducative ».
Le traitement des données est une pratique à laquelle le Ministère de l’éducation est déjà rodé. La scolarisation des élèves au sein de l’école publique débouche sur la production d’un nombre important de données. L’élève n’est toutefois pas le seul moteur de cette production : sa famille, ses professeurs, ainsi que l’administrateur scolaire et les autres personnels de l’Education nationale participent à la création de ces données qui pourtant sont toutes rattachées à la personne de l’élève. Dans cette perspective, les données recueillies et produites au sein de l’école sont certes pédagogiques, mais également sanitaires, économiques et surtout sociales.
Aussi, il serait souhaitable que ces données fassent l’objet d’une protection spécifique ; outre l’application du droit commun du Règlement européen relatif à la Gouvernance et la Protection des Données à caractère personnel (RGPD). Néanmoins, aucun texte réglemente à proprement parler la donnée d’éducation. Tout au plus, le Code de l’Education nationale, en son article L. 312-9, impose-t-il une sensibilisation des personnels, ainsi que des élèves aux enjeux du numérique. En l’absence de texte spécifique, le constat général est que la loi française mise sur une éthique renforcée dans le traitement numérisé des données d’éducation. L’éthique ne saurait pourtant se substituer à la protection offerte par une législation porteuse de dispositions claires.
Face à ce vide juridique, l’autorité juridictionnelle a dû apporter des garde-fous. L’autorité juridictionnelle compétente concernant le contentieux de l’éducation est le Conseil d’Etat. Sa jurisprudence encadre le traitement des données d’éducation par les institutions publiques, notamment en matière de protection des données de santé des élèves.
Ainsi fut annulé un arrêté en date du 3 novembre 2015, prévoyant la mise à disposition des données issues des visites médicales et de dépistage obligatoires aux personnels de l’éducation nationale (Conseil d'État, Chambres réunies, 24 novembre 2017, nº 395858).
Avant même l’entrée en vigueur du RGPD, le Conseil d’Etat annulait le croisement des listes d’élèves avec d’autres fichiers opéré sur décision du Ministère de l’Education nationale. Il s’agissait, d’une part, d’une décision du Ministre mettant en œuvre, à partir de l’année 2004, un traitement automatisé des listes d’élèves et, d’autre part, d’un arrêté de 2008 prévoyant le rapprochement de ces listes d’élèves avec d’autres fichiers. Le Conseil d’Etat s’était alors fondé sur l’ancien article 30 de la loi de 1978 qui imposait une déclaration préalable du traitement à la CNIL, celle-ci n’ayant alors pas été respectée en l’espèce (Conseil d’Etat, 19 juillet 2010,
nº 317182).
Face à l’automatisation du traitement administratif numérique, il parait pertinent de se demander quelles sont les perspectives de conditionnement des études d’un élève en fonction de ses données d’éducation ?
Nous analyserons ainsi la chaîne de production et de traitement de la donnée d’éducation au sein de l’Education nationale (I). Cette collecte de données d’éducation permet d’entrevoir des perspectives de scoring des élèves (II).
- La chaîne de production et de traitement de la donnée d’éducation
La collecte des données d’éducation s’opère aujourd’hui à de nombreuses échelles. Le cadre traditionnel est celui de l’établissement scolaire. Les données d’éducation sont également traitées au niveau des collectivités territoriales. Les outils algorithmiques de traitement des données massives, et particulièrement l’intelligence artificielle, facilitent la centralisation et la généralisation du traitement des données d’éducation dans le cadre de politiques nationales. Le marché de cette technologie joue enfin un rôle décisif pour l’avenir des étudiants dans un contexte international, où face à la présence des GAFAM (acronyme des géants du web – Google, Apple, Facebook, Amazon, Microsoft), les Etats tentent de se réapproprier des solutions de traitement ; en élaborant leurs propres plateformes, à l’instar de Parcoursup.
L’établissement scolaire
Au niveau de l’école, entendue comme l’établissement scolaire en tant qu’échelon de base de la collecte et du traitement de données, il est possible d’établir une segmentation des données collectées et traitées en deux catégories : les données principales, et les données accessoires.
Les données principales d’éducation doivent en premier lieu permettre de penser la pédagogie alimentant les méthodes d’enseignement, il s’agit des données suivantes :
- les données relatives aux résultats scolaires, c’est-à-dire les notes de l’élève ;
- les données relatives aux activités scolaires, comme les autorisations relatives au droit d’image accordées par les tuteurs légaux ou les élèves majeurs ;
- les données relatives au nombre d’élèves et à leur noms ;
- les données relatives au cursus scolaire, c’est-à-dire l’historique des formations suivies par un élève et son identifiant, l’INE (numéro national d'identification) qui le suivra toute sa scolarité durant, et au-delà jusqu’à la mort.
Cet ensemble de données jette les bases informationnelles nécessaires à l’automatisation de processus d’évaluation ou de gestion de la poursuite d’études tels que Parcoursup.
Les données accessoires d’éducation couvrent le champ extra-pédagogique. Elles comprennent :
- les données comportementales, relatives au comportement de l’élève au sein de l’établissement ;
- les données extra-scolaires, relatives à la santé de l’élève, à son foyer et à sa famille, ainsi que les données géographiques telles que la localisation du lieu d’enseignement ou d'habitation de l’élève ;
- les données dérivées des données principales exploitées pour une finalité d’évaluation des enseignants/professeurs et des autres personnels de l’éducation nationale ;
- les données d’accès au service scolaire, par exemple les données biométriques nécessaires à l’accès à certains lieux ou services comme la restauration, ou les simples identifiants de connexion à l’espace numérique de travail.
Ces données ont pour source l’élève et l’établissement lui-même. Elles servent des finalités multiples. Elles peuvent motiver des aménagements scolaires auprès des personnels de l’Education nationale. Elles jouent encore dans la surveillance des profils psychologiques des élèves et peuvent motiver des signalements aux autorités compétentes. Elles influent encore plus largement sur la composition du dossier scolaire de l’élève et l’appréciation qui y sera portée.
Il doit aussi être relevé que les nouveaux outils pédagogiques potentiellement offerts par la technologie de l’intelligence artificielle, vont constituer autant de nouvelles sources de données, laissées comme des "traces" par leurs utilisateurs.
Ainsi, le Rapport Villani reconnaissait que l’intelligence artificielle permettait « d’encoder des événements d’apprentissage » à partir du comportement des élèves sur des services numériques tels que le fait d’arrêter une vidéo ou de la recommencer, ce qui permettrait, à terme, d’adapter le parcours d’apprentissage de façon personnalisée[1]. Ici l’intelligence artificielle rendrait possible l’établissement d’un lien de causalité entre certaines activités – comme la lecture d’un livre, la réalisation d’un exercice, le visionnage d’une vidéo ou l’accomplissement d’une séance sportive ou créative – et la qualité d’apprentissage. Elle devrait également faciliter le développement de l’autonomie des enfants. Ce rapport encourage à des expérimentations comme la mise à disposition d’un cloud personnel d’apprentissage, la mise en place d’un portfolio reportant les données d’éducation d’un élève afin d’en permettre la réutilisation et en simplifier le traitement notamment par ses différents professeurs. L’objectif serait de documenter les usages autour des données d’éducation afin d’identifier les bonnes pratiques, de les formaliser et de les diffuser plus largement.
Aussi, la diversité des données d’éducation rend cette catégorie difficile à protéger par un régime juridique spécifique, puisqu’elle puise dans des données initialement protégées de manière inégales. Beaucoup des données accessoires précitées constituent déjà des données sensibles (au sens de l’article 9 du RGPD), ce qui rend leur isolement dans le contexte de l’éducation difficile. Toute labélisation "donnée d’éducation" interrogerait la définition même de la caractérisation de la donnée en fonction de son origine, ou de son lieu de transit – question d’une grande complexité.
Par ailleurs, avec la collecte de masse des données évoquées plus haut, plusieurs bases de données ont été constituées selon les niveaux d’enseignement. Ainsi, pour ne citer que deux exemples, les applications-systèmes BEI1 et SIECLE servent d’interface de gestion opérationnelle des données de l’enseignement des premier et second degrés. Des échanges de données sont révélés par l’Inspection générale, avec par exemple le logiciel FNOGEC. Ce logiciel est un système de gestion financière visant, entre autres, à piloter la gestion des salaires des personnels de l’éducation. A multiplicité de types de données, multiplicités de traitements.
Les collectivités territoriales
Les collectivités territoriales connaissent des flux de données d’éducation s’étendant de la scolarité de l’élève à son statut de boursier et a fortiori au niveau de revenu de ses tuteurs légaux. En effet, les communes, les départements et les régions ont accès à certaines bases de données. Par exemple le Rapport de 2018 de l’Inspection générale indique que « les mairies peuvent être reliées à la base élève du premier degré BEI1. Elles peuvent accéder à BEI1 avec des droits d’accès spécifiques pour réaliser les inscriptions et gérer les activités périscolaires », là où les Conseils départementaux et les régions disposent d’accès spécifiques à la base de données SIECLE.
Or, ces collectivités territoriales jouent un rôle majeur dans la répartition géographique des élèves. C’est à elles qu’incombent, par exemple, l’établissement de la carte scolaire. L’attribution d’une école plutôt qu’une autre peut bouleverser l’éducation d’un élève selon s’il se retrouve avec certains camarades, s’il est obligé de rentrer en transports en commun chez lui, etc. Mais celle-ci influe également sur la qualité du cadre de l’enseignement dont il bénéficiera. La répartition des élèves étant hautement politique, la carte scolaire ne respecte pas une logique purement géographique mais intègre des considérations de "niveau scolaire" des élèves. Cela a pour conséquence directe l’établissement d’une carte scolaire reconstruite, avec de potentiels écarts de budget. En effet, les dotations attribuées par les collectivités territoriales dépendent en premier lieu des effectifs des établissements. Or les parents qui en ont la possibilité, chercheront à scolariser leur enfant dans les établissements ayant la réputation de présenter de bons résultats. Ce risque de phénomène clientéliste pourrait également engendrer un risque de tendances d’orientation de la notation des écoles. En effet, les établissements pourraient être poussés à influer sur les résultats à la hausse, dans une démarche d’attraction des "meilleurs" élèves ; la même logique de démarcation ayant encouragé la création de classes à option[2]. L’organisation de la carte scolaire va donc conditionner l’attribution des ressources nécessaire à la délivrance de l’enseignement.
La tête du réseau académique, le Ministère de l’Education nationale
La direction générale de l’enseignement scolaire, chapeautant les services du Ministère de l’Education nationale, concentre les accès aux différentes bases de données.
Brandissant le respect du RGPD, le Ministère de l’Education nationale indique sur son site internet que les institutions publiques sous sa direction ne « transigent pas avec le respect des principes éthiques ». Outre la publication d’une « Infographie des dix principes à respecter » en matière de protection des données personnelles des élèves dans le cadre de la classe, adressée aux enseignants et professeurs, il est intégré dans chaque Académie un délégué à la protection des données (DPD), le délégué académique au numérique éducatif.
Le DPD fait office de liaison entre la Commission Nationale d’Informatique et Libertés (CNIL) et son académie. Outre les missions traditionnelles, il présente un rapport annuel au Recteur de l’Académie, constituant le bilan de son activité et le témoin de l’état du respect de la loi en matière de traitement des données à caractère personnel. Or le DPD n’est pas nécessairement un juriste, et celui-ci ne saurait guère prendre des décisions de lui-même.
Aussi, malgré cette évolution du réseau académique, l’échelon national, dans sa fonction centralisatrice des données, demeure la porte d’entrée principale à plusieurs craintes. Ces craintes sont essentiellement celles d’un déterminisme social par un profilage national de l’élève, le détournement des données collectées à des fins étrangères à la finalité éducative, ainsi que l’interférence d’acteurs non publics dont l’accès à la donnée d’éducation n’est toujours pas clairement défini.
L’influence des grandes plateformes dans le secteur de l’éducation
Les politiques liées à l’éducation varient largement d’un État à un autre, y compris dans le cadre de l’Union européenne. Une telle hétérogénéité, ajoutée à la complexité des procédures d’appel d’offres, représente une réelle barrière à l’entrée pour les entreprises porteuses d’innovation. Le marché edtech européen est donc fortement dominé par les GAFAM, et non par des acteurs européens. Il est possible de citer à titre d’exemple l’outil Google Doc pour la production de contenus en groupe ou les classes virtuelles proposées par de nombreux protagonistes de la Silicon Valley. Le Rapport Villani émet la crainte d’une supplantation de notre tradition pédagogique par le biais d’outils importés[3].
Cette crainte avait déjà été formulée en 2018 dans le Rapport relatif à l’état de la protection des données au sein de l’Education nationale.
En parallèle de la question des accès aux données par les GAFAM, se pose également celle du stockage qui lui est étroitement liée. L’idée d’un cloud souverain continue d’alimenter la réflexion d’une partie des parlementaires français, et plus particulièrement depuis les déboires de l’accord Privacy Shield ; semblant faire obstacle à la reconnaissance de garanties équivalentes au niveau de protection européen aux Etats-Unis.
Par ailleurs, les géants du numérique gagnent en influence dans le milieu de l’éducation et récoltent à l’occasion davantage de données d’éducation sur leurs utilisateurs. Ici le confinement aura permis de mettre en exergue les dangers en termes de sécurité de certaines plateformes de classes virtuelles, notamment le service Zoom.
Outre les classes virtuelles, les GAFAM sont en mesure de suivre le parcours scolaire d’un individu grâce à des applications comme LinkedIn de Microsoft ou Facebook, qui permettent à leurs utilisateurs de dévoiler leurs formations suivies.
Sans compter les entreprises qui ont un accès privilégié aux données des écoles du fait d’une relation contractuelle avec celles-ci, notons que certaines personnes privées sont en mesure d’intégrer des données d’éducation dans un programme de scoring de leurs clients. Par exemple, de nombreuses banques proposent une bourse aux étudiants ayant obtenu une certaine mention au baccalauréat. Ces informations pourraient être conservées et utilisées plus tard au moment, par exemple, d’accorder un prêt à l’étudiant. Un système comparable est également envisageable pour les assurances, et plus largement pour l’ensemble des acteurs économiques de la société de services française.
- Les perspectives d’exposition à la pratique d’un scoring des élèves
Le problème du déterminisme social par la notation est une inquiétude ancienne. Si l’enfant ne choisit pas ses parents, il ne choisit pas non plus le lieu de sa scolarité. Tout au plus pourrait-il par la suite formuler des candidatures, pour intégrer les structures de l’enseignement supérieur en qualité d’étudiant. Le traitement de ces données constitue le fondement des politiques de pilotage et de décisions de l’Education nationale. Cette activité n’est pas nouvelle, l’analyse des données et la multiplication de leurs sources est un processus au moins centenaire. Néanmoins les perspectives de mutation de ce traitement, avec l’intégration de nouvelles technologies, propulsent l’analyse des données de scolarité bien au-delà de la traditionnelle dichotomie « étude longitudinale – étude transversale ». Une nouvelle dimension est mise à l’honneur : celle du profilage des élèves pour des finalités diverses ; finalité parmi lesquelles les ambitions pédagogiques se distinguent par leur statut minoritaire.
Le débat autour de la subjectivité des professeurs dans le cadre de l’attribution des notes aux élèves n’est, lui non plus, pas nouveau. Or la majorité des données récoltées au sein de l’école sont le fruit de telles évaluations, comme vu précédemment. Les données d’éducation sont donc, par principe, subjectives. Dès lors, fonder un processus de machine learning sur ces données est risqué et les recommandations faites par un tel algorithme ne devraient pas primer sur la décision humaine en dernier lieu. Hélas cette garantie, pourtant fondée sur le droit à ne pas faire l’objet d’une décision entièrement automatisée, ne peut pas en pratique être assurée. La réalité du nombre de situations à traiter et la diversité des paramètres les composant, ne peuvent que sérieusement diminuer le degré de contrôle véritable de la décision suggérée par un algorithme à un décideur humain. Pire, face aux contraintes matérielles de temps et d’efficacité, le "décideur" humain pourra finalement se trouver cantonné à un rôle d’enregistreur ; sauf à constater une anomalie manifeste.
Dans une perspective optimiste, les politiques éducatives pourraient être repensées par le déploiement de l’intelligence artificielle dans les classes, comme le suggère le Rapport Villani[4]. Des solutions pourraient en effet permettre de lutter contre le décrochage scolaire grâce à une compréhension des facteurs et à une adaptation en amont, de détecter plus tôt des difficultés, telles que la dyslexie, ou encore réduire les inégalités entre élèves. L’intelligence artificielle serait également un complément aux dispositifs d’orientation scolaire et professionnelle. Ainsi les données d’éducation pourraient être transmises dans un maximum de détails à Pôle Emploi.
Le risque ici serait néanmoins de plonger dans une forme de déterminisme social, c’est-à-dire de reproduire des biais discriminants.
Outre la question des biais, le pluralisme des sources des données de scolarité semble poser un problème essentiel de prédétermination du parcours, et a fortiori de la destinée, d’un nouvel entrant dans le système scolaire. Ce déterminisme est fonction d’un scoring de l’élève. Un tel scoring est mal maîtrisé : quand bien même celui-ci ne serait pas la finalité de la politique nationale en matière d’éducation, la réalité de l’algorithme conduit inévitablement à un profilage des élèves ; ne serait-ce qu’à des fins de mise en comparaison de ces derniers. La docimologie connaît un regain d’intérêt avec des algorithmes comme APB, car ils en appellent dans leur conception à un questionnement quant aux critères de notation et de formulation de recommandations personnalisées. Autrefois ces critères se limitaient à mobiliser les données d’éducation principales. Désormais, les algorithmes intègrent dans ces critères un certain nombre de données accessoires, variable en fonction de l’algorithme.
En partant du postulat que les modes de notation des élèves mesurent de manière acceptable les connaissances et compétences de ces derniers, le scoring n’est donc pas problématique en son principe même. Le danger provient de l’incorporation de certaines données accessoires, sur lesquelles les élèves ont une influence réduite voire inexistante. Nous le disions auparavant, l’on ne choisit pas ses parents, son école, son environnement de travail, ni son état de santé…
Le glissement de l’évaluation sur les données d’éducation accessoires doit interpeller sur les risques de dérives. L’ultime risque serait celui de l’atteinte à la vie privée des élèves, qui pourraient être poussés à prolonger l’adoption d’un comportement conformiste.
Dès lors, le manque de transparence sur les solutions algorithmiques de traitement, qui donnent corps à ce scoring, est inévitablement contraire à l’intérêt de l’élève. En effet, les critères d’action doivent pouvoir être effectivement connus et contrôlés ; tant par les institutions publiques que le public qu’il affecte. La préconisation n°12 du Rapport de l’Inspection général de 2018 proposait d’« inclure une clause d’explicitation des principes sur lesquels reposent les algorithmes utilisés dans les traitements de données à caractère personnel dans les contrats passés avec les développeurs privés. » L’explicitation, voire la publication, doit permettre tant à l’élève une anticipation des critères, qu’un contrôle d’une éventuelle manipulation des résultats ; ou une contestation des critères en amont s’ils traduisaient une telle orientation du scoring.
Aujourd’hui, la problématique de la transparence de l’algorithme de sélection a débouché sur un contentieux spécifique.
Le Code des relations du public et de l’Administration (CRPA) reconnait le code source d’un algorithme utilisé par les administrations publiques comme un document administratif (article L. 300-2 CRPA). Lorsque l’algorithme fonde une décision individuelle, l’administration (d’au moins 50 employés) l’ayant utilisé pour sa mission doit publier en ligne les règles définissant ce traitement algorithmique et informer par une mention explicite le caractère automatisé de la décision à l’administré (articles L. 311-3-1 et 312-1-3 CRPA). Toutefois, l’article L. 612-3 du Code de l’éducation, précise qu’afin de garantir la protection du secret des délibérations des équipes pédagogiques chargées de l'examen des candidatures présentées dans le cadre de la procédure nationale de préinscription, les obligations résultant des articles cités sont réputées satisfaites dès lors que les candidats sont informés de la possibilité de se voir communiquer, s'ils en font la demande, les informations relatives aux critères et modalités d'examen de leurs candidatures ainsi que des motifs pédagogiques qui justifient la décision prise.
Le Conseil d’Etat, a marqué une position protectrice du secret du code source, lorsque son usage entre dans le cadre du secret attaché aux délibérations des commissions de sélection (et pédagogiques). A la suite d’un appel d’une décision du Tribunal administratif de Guadeloupe, qui ordonnait à l’Université des Antilles la communication à l’UNEF du code source de l’algorithme Parcoursup utilisé à des fins de sélection, le Conseil d’Etat a fait une interprétation de la disposition spéciale du Code de l’éducation. L’article L. 612-3 doit être regardé comme ayant entendu « déroger, notamment, aux dispositions de l’article L. 311-1 du code des relations entre le public et l’administration, en réservant le droit d’accès à ces documents aux seuls candidats, pour les seules informations relatives aux critères et modalités d’examen de leur candidature » (Conseil d'État, 4ème - 1ère chambres réunies, 12 juin 2010, n°427916). Cette interprétation restrictive montre que l’algorithme fait bien partie intégrante du contenu protégé par le secret des délibérations. La difficulté est que l’usager a accès aux modalités d’examen et aux motifs pédagogiques, sans avoir accès au code source. Mais qui est alors en charge de contrôler que les éléments communiqués correspondent réellement au paramétrage qui a été fait ? Est-ce que les membres de la commission peuvent matériellement effectuer à leur échelle locale un quelconque paramétrage ? Est-ce que ces derniers ne sont pas forcés à acter la "proposition" de décision de l’algorithme ? Le degré d’automatisation du traitement n’est pas évaluable en l’état du droit et cette absence de contrôle caractérise l’enjeu du traitement de la donnée de l’éducation.JE RETIENS...
L’expression nouvelle de "données d’éducation" comprend à la fois les données purement pédagogiques mais aussi des données qui ne sont pas nécessairement pédagogiques, propres à l’élève ou même collectées au sein de l’école. Leur destinée n’est ni homogène ni précisément connue, compte tenu de la multiplicité des finalités de leur traitement et des acteurs concernés. Cette absence de contrôle efficace laisse entrevoir un risque mal maîtrisé de profilage de l’élève qui risque d’être dépossédé de son influence sur son orientation scolaire et postscolaire.
[1] Rapport Villani, 28 mars 2018, p.187 : « […] certaines métriques permettent d’encoder des événements d’apprentissage à partir des changements d’activité enregistrés (s’arrêter sur une vidéo, reculer, recommencer) et donc de décrire des trajectoires d’apprentissage (appropriation, application, réemploi, oubli) afin de proposer un parcours personnalisé. »
[2] Ainsi qu’indiqué sur le site du gouvernement, à propos des objectifs de la réforme du collège de juin 2017 ; cfhttps://www.gouvernement.fr/argumentaire/college-rentree-2017#:~:text=Am%C3%A9nagement%20de%20la%20r%C3%A9forme%20du%20coll%C3%A8ge&text=D%C3%A8s%20la%20rentr%C3%A9e%202017%2C%20les,du%20latin%20et%20du%20grec.
[3] Rapport Villani, p. 191 : « Ce positionnement stratégique pénalise le développement d’une offre edtech européenne et soulève la question de la soutenabilité de notre système éducatif au moment même où les usages éducatifs se déplacent massivement vers des services hors de l’UE (production de contenus sur Google doc, pages de classe sur Facebook…). Si la situation perdure, on peut craindre que ces initiatives n’atteignent jamais la taille critique nécessaire pour être viables et soient par conséquent supplantées par les services de concurrents étrangers qui s’inscrivent dans un contexte et une tradition pédagogique différents. »
[4] Rapport Villani, p. 190 : « Les progrès récents en matière d’IA ouvrent des perspectives intéressantes pour repenser les politiques éducatives mises en œuvre par le ministère. En effet, qu’il s’agisse de la lutte contre le décrochage scolaire, la détection précoce de difficultés (dyslexie par exemple), la réduction des inégalités entre élèves ou l’innovation pédagogique, les solutions d’IA actuellement développées permettent de mieux documenter les phénomènes, identifier les besoins et les opportunités d’action, et apporter des éléments de solution nouveaux. Elles sont donc en mesure de transformer durablement les politiques éducatives. »