Le machine learning est-il équitable ?

Le « Machine Learning » est entré dans l’entreprise. On en voit certes les opportunités, mais en mesure-t-on bien les enjeux sociétaux ? Peut-être est-il utile d’interroger les usages de cette nouvelle génération d’algorithmes d’apprentissage utilisant des bases géantes de données empiriques ? Existe-t-il un risque épistémologique à reproduire les biais et stéréotypes humains ? A titre d’exemple, nous interrogerons le tri de CV par le « machine Learning ». Ne véhicule-t-il pas des schémas sexistes existants ? Dit autrement, est-il équitable ?

J’avais reçu commande d’une étude qui devait analyser la réaction de filiales européennes d’un groupe face au effets du mouvement #MeeToo. Au-delà même des violences faites aux femmes, qui dépassait le cadre de mon analyse, j’entendais pouvoir révéler les effets sur l’égalité femmes hommes en entreprise dans ces pays. L’idée étant d’apprécier pour une même culture d’entreprise les différences culturelles « géographiques » face à un événement à résonance mondiale. 

D’un point de vue méthodologique, cette approche demandait à minima un travail déductif qui devait permettre à partir de quelques observations qualitatives qui se voudraient représentatives d’inférer des généralités qui vaudraient pour le pays, sinon pour la filiale. Evidemment, il existait l’approche complémentaire inductive, qui aurait conduit à compiler des données existantes en nombre suffisant pour induire ce qui se passe dans telle ou telle filiale. Ces deux approches classiques en sociologie, c’est-à-dire dire d’observation terrain et d’analyse de données sont généralement à mener de concert. Sauf qu’il peut exister des écarts entre leurs conclusions respectives issues, d’une part, de l’analyse de données, caractérisée par une abondance informationnelle, et d’autre part, alimentée par le prisme de l’expérience singulière et tous les biais culturels et idiosyncrasiques de l’observateur. 

« Machine » Humaine, trop humaine ?

J’envisageais notamment d’analyser l’historique du nombre de promotions de femmes depuis plusieurs années jusqu’à cette année pour effectuer les comparaisons statistiques d’usage. Je m’interrogeais alors sur l’opportunité d’avoir recours au « Machine Learning » pour mieux connaitre la population de référence et son évolution. 

D’où cette question essentielle : les algorithmes prédictifs pourraient-ils permettre de prévoir les effets induits par #MeeToo ? Cet évènement disruptif extérieur au groupe qui remettait en cause les pratiques antérieures – sexistes – de promotion – pardon de non promotions des femmes - rendait-il pertinent l’usage des algorithmes prédictifs ? L’observation du passé aurait-elle pu me donner les clefs du présent ? En d’autre terme, le « machine learning » n’est-il pas lui-même sexiste ? dit autrement n’apprend-t-il pas aussi à reproduire des schémas sexistes existants ?

Plusieurs définitions du « Machine Learning » sont disponibles dans la littérature, en voici une énoncée dans l’ouvrage collectif Big Data et Machine Learning : « ensemble d’outils statistiques ou géométriques et d’algorithmes informatiques qui permettent d’automatiser la construction d’une fonction de prédiction à partir d’un ensemble d’observations que l’on appelle l’ensemble d’apprentissage ».

Dans le processus d’apprentissage, on présuppose un paradigme de continuité c’est-à-dire que l’information du passé est significative pour donner une information sur l’avenir. On peut s’interroger sur la capacité de l’algorithme prédictif à adresser les problèmes nouveaux non survenus dans le passé et donc inconnus du « machine learning ».  

De l’art de manier les variables  

Au préalable, on devra s’interroger sur les nouvelles garanties d’utilisation que fait peser le RGPD sur les données personnelles issues par exemple des CV parfois reçus il y a quelques années à des fins de simulation. Il est entendu que le RGPD a largement focalisé sur les données personnelles et fait une quasi impasse sur les données anonymisées, laissant le champ libre aux éditeurs. En outre, il est possible de chercher à remplacer une variable absente, lacunaire ou retirée à dessein, telle que le sexe par d’autres variables « fortement explicatives ». Leur maniement devra être fait avec autant de rigueur et dans le respect du cadre légal ad hoc que la variable substituée. A titre d’illustration, une sélection qui ne serait pas fondée sur le sexe, mais qui serait fondée sur des prérequis stricts de progression de carrière dont des femmes auraient été exclues pour des raisons indépendantes de leur mérite et de leur volonté (fameux effet de plafond de verre) conduirait à les exclure à nouveau injustement (double peine). De même, une sélection qui ne serait pas fondée sur le sexe, mais sur un critère d’années d’expérience trop précis, incontestable de prime abord, pourrait conduire à exclure des femmes ayant connu un ou plusieurs congés parentaux (ou autre type d’interruption d’activité ou temps partiel). Ces mêmes exemples conduisent à sélectionner sur des critères d’âges, excluant tantôt les jeunes et tantôt les plus âgés. On le constate, si les critères de sélection apparaissent pertinents – c’est-à-dire ne retenant pas les variables de sexe et d’âge - ils peuvent in fine conduire à des exclusions qu’ils entendaient pourtant éviter.      

Oiseaux rares 

En bon DRH qui se respecte –  c’est-à-dire en non mathématicien ni informaticien – j’étais impressionné par cette nouvelle génération de machines apprenantes issues du Big Data. Dans le domaine RH, et pour rester dans la problématique d’égalité femmes hommes, les algorithmes prédictifs promettent par exemple de trier les CV à la place des recruteurs de la même façon qu’ils l’auraient fait eux-mêmes. Plus vite et sans erreur. Remplacer les personnes de l’art apparaît tentant, au moins économiquement parlant, et dans l’air du temps d’une recherche de performances et d’infaillibilité. Encore faudrait-il se prémunir des biais de genre et autres biais culturels. Encore faudrait-il que le « Machine Learning » sache, comme un bon recruteur, aller chercher le mouton à 5 pattes sous les signaux faibles ou encore avoir une approche disruptive, jusqu’ici non retenue dans l’historique des CV analysés et validés, pour dénicher les futurs oiseaux rares qui sauront conduire et incarner les Transformations. Rompre avec les mauvaises habitudes ou inventer ce qui n’existait pas :  est-ce à la portée de ces machines ?

L’équité n’est pas une option 

L’objet n’est, ici, pas d’entrer dans des considérations techniques mais utilement de rappeler que les prédictions ne mettent pas en évidence des causalités mais bien des corrélations. Et que au-delà du score lui-même, il est tout aussi important de connaitre le niveau de fiabilité (intervalle de confiance) de ce résultat. La question se pose de savoir, pour ces algorithmes présentés comme une aide à la décision, combien de fois le recruteur remettra-t-il en cause le tri de CV effectué en le confrontant à sa propre expérience et en partageant cette décision avec l’éditeur. Ou, si au contraire il se fiera exclusivement à cette sélection de CV compte tenu de son caractère présumé ou perçu d’infaillibilité. Auquel cas, il ne serait pas possible de confronter le modèle prédictif à la réalité des besoins de recrutement de l’entreprise et d’ajuster le modèle. 

Un algorithme prédictif produira toujours un résultat. Il est donc important que les utilisateurs aient, au-delà même du sens critique, un niveau suffisant de confiance dans ce résultat. En particulier sur la partie d’apprentissage « qui est la partie immergée de l’iceberg car les données peuvent changer, l’algorithme peut ne pas converger, les intervalles de confiance peuvent être trop importants pour que le résultat produit puisse être pris sans risque important d’erreur » rappelle en substance Cédric Gouy-Pailler chercheur au CEA dans l’émission la méthode scientifique de France Culture. C’est bien cette « interprétabilité », rappelle-t-il, au sens de Tim Miller (réunissant la double condition : à quel point un humain peut-il a) comprendre la cause d’une décision b) prédire de manière consistante le résultat d’un modèle) qui seule peut créer les conditions de la confiance.  

Dans cette même émission, Claire Mathieu directrice de recherche au CNRS et professeure au Collège de France, donne une bonne illustration de la difficulté d’avoir une définition de l’équité au travers d’un exemple d’algorithme prédictif de récidive de détenus aux Etats-Unis. Elle rappelle que les 3 propriétés nécessaires pour une décision juste (selon des notions d’équiprobabilités de récidive pour la population générale et par groupes ethniques de récidivistes) - c’est-à-dire pour une décision équitable du point de vue de l’origine ethnique des détenus -  ne peut pas être satisfaite par des fonctions de score. On ne doute pas qu’il existe des moyens de remédier à ces biais par la conception et l’apprentissage du modèle à partir de groupes d’entrainement et de test pertinents permettant d’évaluer la qualité prédictive du modèle. Sans doute, n’est-il pas nécessaire de rappeler qu’il serait illégal de faire appel en France à des variables ethniques fusse pour en dénoncer les effets discriminatoires. 

Boite de Pandore 

En l’espèce, si dans une base historique de CV, la proportion de femmes issues de la sélection de CV pour des postes de managers des ventes par exemple est significativement inférieure à la proportion des candidates, le modèle devrait en principe pouvoir corriger cette irrégularité sexiste et la corréler uniquement aux écarts de compétences requises. Dès lors, le choix des critères – dites variables prédictives – pour produire ces ajustements parait crucial. De la même façon, on doit pouvoir s’assurer que le « machine learning » ne produit pas d’autres discriminations prohibées par la loi. On ne doute pas également que les startups ont su remédier à ces biais et fait les arbitrages utiles. Il s’agit pour l’utilisateur, le professionnel RH ou le recruteur en l’occurrence, d’avoir connaissance de ces ajustements ou même des biais initiaux de sa base de CV acceptés / refusés. Ce serait une opportunité pour le recruteur de comprendre comment y remédier dans sa pratique, c’est-à-dire non seulement pour le tri de ses CV, mais aussi dans ses décisions finales de recrutement. On le voit, la transparence et une bonne compréhension du modèle permettraient d’apprendre plus du « Machine Learning » que par ses seules fonctions de scores, elle permettrait de révéler les biais de sa propre pratique en matière de recrutement et de pouvoir les dépasser.  

Enfin, nous l’avons dit, un algorithme produira toujours un score. Pour un algorithme donné, ce score sera variable en fonction des bases (ou ensembles) de données utilisées pour le test et l’apprentissage. Il appartiendra donc également aux professionnels RH de traiter les informations préalables qui alimenteront l’apprentissage du « Machine Learning », au regard des objectifs visés et des informations disponibles dans la base historique de données et d’être impliqués dans la constitution des groupes d’apprentissage et de test. Il faudrait pouvoir s’assurer de la cohérence et de la consistance de la base de données disponibles. En d’autres termes, s’assurer que l’apprentissage sera pertinent par rapport à ce que l’on veut en faire.  

Accompagner les Transformations

Plus largement, l’accompagnement des transformations nécessitera de bien comprendre les « changements de régime » des algorithmes et d’analyser les changements au travers de la connaissance mise à jour des biais du passé. Mieux connaitre l’historique permettra aux professionnels RH de mieux anticiper les changements. Leur participation au processus d’apprentissage du « Machine Learning » s’imposera comme une nécessité. On ne doute pas que les avancées de l’Intelligence artificielle apporteront une créativité supplémentaire. Le marché du « Machine Learning » est sans nulen t doute très prometteur, autant que les startups françaises dans ce domaine.  Le tri de CV en est un bon exemple, s’agissant en pratique de tâches répétitives déléguées à de jeunes professionnels créatrices in fine de forte valeur ajoutée pour l’entreprise. 

Transparence, loyauté et vigilance

Il ne s’agit pas ici d’ouvrir un procès en angélisme ou ignorance des utilisateurs et des professionnels RH en dernier ressort. Mais il en va de la nécessité de « prendre la main » en mesurant les succès et les échecs de la machine et de les corriger en permanence. Il faut un co-pilote dans la Machine, qui ne laisse pas l’éditeur seul mais qui implique l’utilisateur, qui devra être formé et connaitre les incidences des algorithmes. In fine, la responsabilité sociétale incombera toujours à l’utilisateur tant qu’il ne peut se prévaloir d’ignorer les limites des machines qu’il sollicite pour gérer ses ressources humaines. Il n’en serait pas nécessairement de même du point de vue de la responsabilité civile ou pénale, compte tenu de l’absence actuelle de cadre juridique spécifique et de normes, au-delà même de la CNIL. On ne doute pas que les juristes se saisiront de ce débat. On conclura par la recommandation du Conseil d’Etat – au-delà du RGPD - dans une étude numérique et droits fondamentaux qui recommande l’encadrement juridique des algorithmes en érigeant en principe la transparence, la loyauté, la vigilance pour que les décideurs publics « gardent la main ». A mon sens, un enjeu largement partagé par les entreprises, et les DRH en particulier.

Si le « Machine Learning » apprend uniquement des données dont nous le nourrissons en amont, il nous reste encore à bien comprendre toutes les incidences de son fonctionnement, pour nous en assurer le contrôle et l’efficience dans le respect de la responsabilité sociétale des utilisateurs.

Emmanuel Lebuchoux

NDLR : Ce qu' Emmannuel Lebuchoux anticipait dans cet article a trouvé confirmation la semaine dernière avec la mise à la casse de l’algorithme sexiste de recrutement d'Amazon

  

 

 

        

Imprimer