En mars 2016, Microsoft a donné naissance à Tay, un chatbot capable de développer son langage en fonction de ses interactions verbales. Seulement 24h après sa mise en ligne et quelques échanges avec les internautes, le robot s’adonnait déjà à d’haineuses diatribes, allant de « Je haie les féministes qui devraient toutes brûler en enfer » à « Hitler a fait ce qu’il fallait, je déteste les Juifs ». A préciser : avant d’avoir dialogué avec de malveillants ou malicieux Twittos, la première phrase formulée par Tay avait été un enthousiasmant « Les Humains sont super cools ! »
Oh, Tay, ta gentillesse aura été bien éphémère…
Dis-moi quelles données tu as mangé, je te dirai qui tu es
Ce qu’il faut retenir de tout ça, c’est que la nature des données absorbées joue un rôle primordial dans le façonnement d’une IA. « La plupart des IA reproduisent sur de nouvelles données ce qu’elles ont apprises sur des données d’entrainement », explique Jean Ponce, chercheur à l’Inria. « Si les jeux de données sont biaisés, alors les résultats obtenus par les algorithmes seront de fait faussés. »
Plusieurs exemples illustrent le phénomène, à commencer par l’algorithme Compas utilisé par la police en Floride pour identifier les personnes susceptibles de récidiver. Le logiciel identifie les Afro-Américains comme ayant deux fois plus de chance de commettre un nouveau délit qu’un Blanc ayant déjà un casier judiciaire. Avec ce système, un Blanc ayant subi des abus sexuels quotidiens durant 15 ans pourrait être étiqueté “sans risques”, à l’inverse d’un Noir sans antécédents…
Ce type de biais est extrêmement intuitif mais il est pourtant complexe à résoudre
Autre anecdote sympathique : l’application FaceApp, développée à Saint-Pétersbourg dans le but de « rendre plus beaux » les visages sur les photos. Résultat : la peau de l’ex Président Barrack Obama a été éclaircie… En cause : les datas à partir desquelles les algorithmes et les systèmes prédictifs apprennent. Non neutres, ils véhiculent les préjugés et les valeurs de leurs créateurs.
Comment faire mieux alors ?
Pas si facile, car comme le souligne Pierre Boullier, co-fondateur du réseau de réflexion Galatea : « Les biais les plus communs sont d’abord et avant tout les biais induits par la partialité ou la mauvaise qualité des données. Ce type de biais est extrêmement intuitif mais il est pourtant complexe à résoudre… »
[wydden_refer_post post= »30213″][/wydden_refer_post]La data : l’or noire de notre siècle
La première étape : récolter des données structurées et pertinentes. Il faut pour cela faire attention aux sources, qui se doivent d’être le nombreuses possibles, et d’origines variées. Il faut ensuite la purger de tout contenu explicitement ou implicitement sexiste, raciste, etc…
Lors de l’extraction de la data, il faut la qualifier, c’est à dire la « structurer » avec le plus de minutie possible, un travail long et… un peu fastidieux. « Les efforts dépensés pour le nettoyage et la structuration de la donnée sont constants », affirme Franck Burlot, CTO chez Lingua Custodia. « Une importante partie de notre activité R&D est consacrée à la réduction de l’impact des erreurs présentes dans les données. Idéalement, il faudrait que les systèmes soient en mesure de s’autocensurer. Or, la représentation des connaissances en deep learning est opaque pour les humains et l’intégration de barrières explicites, morales ou d’autres natures, est un sujet complexe. »
Idéalement, il faudrait que les systèmes soient en mesure de s’autocensurer.
Pour Fréderic Bardeau, fondateur de l’école Simplon, il est aussi prioritaire de diversifier les profils dans la tech pour s’assurer que l’écosystème, encore peu inclusif, ne soit pas, en somme, uniquement peuplé d’hommes blancs hétérosexuels issus d’école de grandes écoles. Il s’agit aussi pour lui de former et sensibiliser très en amont aux problématiques éthiques les concepteurs d’algorithmes, afin qu’une fois en poste ces derniers soient en mesure de produire des IA plus saines.
L’entrepreneur met aussi à l’index un biais inhérent aux IA fonctionnement par entrainement, à savoir leur nature résolument rétrograde : « Grossièrement, elles analysent le passé pour prédire le futur. Une IA regarde toujours dans le rétroviseur. »
Une IA regarde toujours dans le rétroviseur
Frédéric Bardeau en veut pour preuve l’IA mise en place par Amazon pour automatiser une partie du recrutement. Cette dernière a été désinstallée l’année dernière pour avoir trop souvent écartée les profils féminins puisqu’elle s’appuyait pour sélectionner ses candidats sur une analyse des performances passées. La surreprésentation des hommes au sein du top management a donc conduit le logiciel à vouloir reproduire un schéma que l’on s’attache pourtant démanteler. « Il faut dépolluer l’IA de tout ça ! », assène Fréderic Bardeau.
De l’impossibilité de rendre les données impartiales
Pierre Boullier tient toutefois à rappeler que les données sont nécessairement partielles. « L’enjeu est d’assigner le bon poids à chacune des variables que l’on assigne à ces données afin de produire les résultats les plus justes possibles. Pour se débarrasser des biais, de nombreuses méthodologies peuvent être explorées, comme l’intégration de variables d’incertitude ou encore l’intégration de contraintes d’équité. »
[wydden_refer_post post= »29748″][/wydden_refer_post]
Ces contraintes d’équité visent à annuler la prise en compte d’attributs comme l’origine ethnique, le genre ou l’orientation sexuelle. Par exemple, parmi les demandeurs de crédit ayant 10% de chances de ne pas être solvables, l’équité algorithmique consisterait à introduire la règle que les taux de défaut de paiement soient indépendants de l’appartenance à un groupe démographique. Une idée à tempérer toutefois : ces contraintes algorithmiques de correction de biais peuvent diminuer la capacité prédictive de ces derniers.
Le problème est donc loin d’être insoluble, il s’agit (juste) de savoir dans quel type de société nous avons envie de vivre, et de s’appliquer à lui donner forme.
Source photo : Photo by Rock’n Roll Monkey on Unsplash