La Revue des médias
Comment enquêter sur les algorithmes ?

Comment enquêter sur les algorithmes ?

Les algorithmes nous fascinent ou nous inquiètent. Face à leur pouvoir croissant et peu transparent, les journalistes développent de nouvelles méthodes d'enquête pour dévoiler leurs biais.

par Clément GIRARDOT

Publié le 29 mai 2017

Temps de lecture : 10 min

Si les algorithmes suscitent une attention médiatique de plus en plus grande, ils sont pourtant encore mal connus des Français. Selon un récent sondage effectué par l'institut IFOP pour la CNIL, 83 % des individus interrogés ont déjà entendu parler des algorithmes mais ils ne sont que 31 % à savoir précisément de quoi il s'agit. Leurs représentations sont globalement négatives : ils sont 53 % à penser qu'ils sont davantage une source d'erreur que de fiabilité et 64 % qu'ils représentent plutôt des menaces que des opportunités.

Plusieurs essais portant sur ce sujet ont récemment été publiés, dont celui des informaticiens Serge Abiteboul et Gilles Dowek, intitulé Le Temps des Algorithmes (Le Pommier, 2017), qui brosse de façon très didactique et équilibrée les enjeux du changement de paradigme que nous vivons. Ils reviennent aussi sur le concept d'algorithme qui n'est pas circonscrit à l'informatique puisqu’il s’agit d’un procédé qui permet de « résoudre un problème sans avoir besoin d'inventer une solution à chaque fois ». Par exemple, un théorème de mathématiques ou une recette de cuisine sont des algorithmes. En informatique, c'est une procédure automatisée conçue par des ingénieurs. Les algorithmes suivent une procédure définie par des humains, ils n'ont pas libre-arbitre ou de capacité d'interprétation.

Sur le moteur de recherche Google, il est assez facile de déceler certains biais. Il suffit de regarder les images qui sont associées au terme « beauté » pour se rendre compte que ce concept est quasi-uniquement incarné par des jeunes femmes blanches et minces... On a pu observer le même biais lors du Beauty.AI 2016, un concours de beauté en ligne dont les prix ne sont pas décernés par un vote du public ou de spécialistes mais par des algorithmes. Les résultats ont déconcerté tant les participants que les organisateurs car ce sont des individus blancs qui ont quasi-systématiquement été récompensés, alors que les hommes et femmes qui s’y étaient inscrits provenaient du monde entier.

Ces exemples illustrent parfaitement un risque lié au développement des algorithmes. Souvent promus comme plus neutres et objectifs que les humains, ils peuvent être discriminatoires s’ils répercutent les biais de leurs développeurs et/ou des bases de données.

Pour les journalistes, les algorithmes constituent un nouveau terrain d'enquête qui est encore peu exploré en dehors des États-Unis. Les médias ont la double mission de sensibiliser l'opinion publique aux problématiques associées à leur expansion et de dévoiler des traitements injustes qui peuvent nous affecter tant individuellement que collectivement.

Quel pouvoir ont les algorithmes sur nos vies quotidiennes ?

Les algorithmes sont déjà omniprésents dans notre société, souvent sans que nous remarquions leur influence. Ils permettent le fonctionnement des distributeurs de billets, des GPS des voitures, des applis des smartphones ... Sans eux, pas d'ordinateurs personnels ni d'internet.

Les algorithmes façonnent notre vision du monde

De manière croissante, ils façonnent notre vision du monde. Selon le rapport 2016 de l'Institut Reuters sur l'information numérique, 51 % des personnes interrogées dans 26 pays développés s'informent à travers les réseaux sociaux qui filtrent les informations visibles suivant nos comportements. Parallèlement, ce sont aussi des algorithmes qui vont produire de manière croissante des informations qui seront de plus en plus personnalisées.

Sur des plateformes comme Amazon, Netflix ou Spotify, des algorithmes se chargent de nous assister dans nos choix. Pour Eric Scherer, directeur de la prospective de France Télévisions, cette situation est alarmante : « La dépendance des citoyens à l’égard de tiers incontrôlés grandit dangereusement : leurs décisions sont prises à partir d’informations choisies par ces algorithmes, censés savoir ce qu’ils veulent lire, écouter et regarder. » L’économiste Nathalie Sonnac s’inquiétait aussi de cela et pointait le risque de ne se voir proposer qu’une offre renforçant notre vision du monde (phénomène de « bulle de filtre »).

Ce phénomène a d’ailleurs fait l’objet d’un intense débat, à propos des réseaux sociaux et notamment de Facebook, après l’élection de Donald Trump à la présidence des États-Unis. Signalons que les algorithmes sont aussi utilisés par les communicants, lors des campagnes électorales, pour cibler individuellement les citoyens indécis afin de concentrer les efforts sur cet électorat (et ne pas perdre de temps sur les électeurs sûrs de leur choix).

Les algorithmes effectuent des activités considérées auparavant comme exclusivement humaines qui peuvent aller jusqu'à la prise de décisions très importantes : sélectionner des candidatures, effectuer des diagnostics médicaux, conduire des voitures intelligentes, évaluer le travail des professeurs, décider de l'attribution d'un prêt bancaire, effectuer des transactions sur les marchés financiers, choisir qui sera interrogé lors du passage d'un poste frontière ou encore déceler les comportements suspects sur internet.

Selon de nombreux experts, ce sont ces prises de décision algorithmiques que l'on voit se développer dans des domaines cruciaux (éducation, emploi, finance, santé, aides sociales, police et justice) qui constituent un risque majeur.

Pourquoi est-il important d'enquêter sur les algorithmes ?

C’est pourquoi, petit à petit, les enquêtes journalistiques s'attaquent aux nouvelles problématiques liées à la révolution numérique – et non plus seulement aux champs politique et financier. Les journalistes d'investigation s'intéressent en effet aux coulisses des différents pouvoirs, enquêtant pendant des mois voire des années pour dévoiler des scandales et demander des comptes aux puissants.

Le code de nombreux algorithmes est protégé par le secret des affaires

Enquêter sur les algorithmes, c'est aussi s’intéresser à un ingrédient clé de la réussite des nouveaux géants de l'économique mondiale, les fameux GAFA (Google, Amazon, Facebook, Apple. Là aussi, leur pouvoir est très largement opaque. Le code de nombreux algorithmes est protégé par le secret des affaires. De plus, leur fonctionnement très complexe est souvent difficile à appréhender ou à remettre en question pour le grand public.

« Aucun outil, aucune procédure, aucun garde-fou, aucune régulation n’existent pour l’instant pour contrôler les algorithmes », note Eric Scherer, qui appelle les journalistes à s'emparer de ce terrain d'investigation. Face aux avancées technologiques, les médias ont beaucoup de retard et très peu de journalistes disposent des compétences nécessaires pour enquêter dans ce domaine.

Mais, pour de nombreux individus, les décisions algorithmiques sont déjà une réalité qui a un impact fort sur leur vie. C'est pour cette raison qu'est née, au début de l’année 2015 en Allemagne, l'ONG Algorithm Watch. « La prise de décision algorithmique comporte d'énormes risques et autant de promesses. Le fait que la plupart des procédures comportant des décisions algorithmiques sont des boîtes noires pour les gens qu'elles affectent n'est pas une loi naturelle, cela doit cesser ! », affirme son manifeste.

« Nous avons senti le besoin de créer une forme d'observatoire pour impulser le débat dans l'opinion publique », affirme Lorenz Matzat, data journaliste basé à Berlin. Algorithm Watch milite pour plus de transparence et participe aussi à plusieurs projets d'enquêtes journalistiques en collaboration avec des rédactions. La première portera sur le rôle des algorithmes dans le domaine de la gestion des ressources humaines et la seconde sur l'entreprise Schufa, dont l'algorithme définit un score de solvabilité qui conditionne l'attribution des prêts bancaires.

« Les décisions algorithmiques ne sont plus quelque chose d'amusant qui nous aide à décider quoi manger ou quoi regarder », avertit l'informaticien Suresh Venkatasubramanian, de l'Université de l'Utah, qui a élaboré des outils pour tester les algorithmes. « Demandons des explications, continue-t-il. Ouvrons les codes, exposons leur fonctionnement interne, demandons plus de responsabilité, de transparence, que les algorithmes ne perpétuent pas ou n'amplifient pas certains biais déjà présents dans la société ».

De nombreux chercheurs en informatique travaillent déjà sur les biais possibles des algorithmes. Leurs compétences peuvent être utiles aux journalistes car enquêter dans ce domaine demande, en plus des savoir-faire traditionnels, des connaissances pointues en informatique et en analyse des données. « Il faut avoir un grand degré d'expertise technique ou travailler avec quelqu'un qui a cette connaissance », estime Nicholas Diakopoukos, directeur du laboratoire de journalisme informatique de l'Université du Maryland. Les enquêtes effectuées dans ce domaine sont souvent le fruit d'un travail d'équipe où des profils plus journalistiques et plus scientifiques coopèrent.

Comment enquêter sur les algorithmes ?

Les techniques d'enquête classiques – entretiens et collecte de documents – peuvent apporter des informations précieuses mais se heurtent le plus souvent au manque de coopération des entreprises privées et même des administrations publiques.

Les algorithmes étant souvent la propriété d'entreprises, il est judicieux de commencer par s'intéresser aux propriétaires de celles-ci et à leurs intérêts. « Le propriétaire est important, en plus des ingénieurs, ce sont eux qui décident du déploiement d'un algorithme suivant une certaine logique », explique Anna Jobin, sociologue à l'Université de Lausanne, spécialiste des algorithmes et de leurs usages.

Les protagonistes n'ont pas forcément conscience de possibles impacts négatifs des algorithmes

Une des principales difficultés des enquêtes dans ce domaine est que les protagonistes n'ont pas forcément conscience ou connaissance de possibles impacts négatifs. « Pour certains algorithmes, les développeurs peuvent eux-mêmes ignorer les détails du comportement de leur création », affirme Duc-Quang Nguyen, data journaliste pour le site swissinfo.ch.

Pour avancer dans leur enquête, les journalistes doivent pouvoir comprendre et tester le fonctionnement de l'algorithme. En France, aux États-Unis ou en Suisse, si une administration est incriminée, il est possible d'obtenir des informations détaillées sur un algorithme en invoquant le droit d'accès aux documents – sous réserve, par exemple, que leur divulgation ne porte pas atteinte à la sécurité publique, au secret en matière commerciale, etc. En France, le ministère de l'Éducation nationale, de l’Enseignement et de la Recherche a récemment été contraint de rendre public l'algorithme du service Admission Post Bac qui traite l'orientation des bacheliers vers l'enseignement supérieur. C'est une association de lycéens qui a obtenu cette décision, mais elle se plaint de ne pas avoir reçu l'ensemble des documents nécessaires pour effectuer une bonne analyse de l'algorithme.

Comprendre le fonctionnement d'un algorithme en essayant de reconstituer et simuler son fonctionnement est une méthode qui s'appelle la retro-ingénierie – ou reverse engineering en anglais. C'est une pratique courante en électronique ou en informatique qui a été adaptée au journalisme d'investigation. « Il s'agit d'inférer le comportement d’un algorithme en soumettant toutes sortes d’inputs et d’analyser les résultats sortants. Mais même pour une personne expérimentée en informatique, ce processus est long, fastidieux et potentiellement infructueux », explique Duc-Quang Nguyen. « Cela permet de révéler les biais cachés qui peuvent potentiellement exister », note pour sa part l'informaticien Suresh Venkatasubramanian.

Chaque algorithme étudié nécessite un cocktail méthodologique propre. Il est parfois possible d'aboutir à des conclusions sans avoir besoin d'adopter une démarche de rétro-ingénierie. Par contre, certaines enquêtes requièrent de créer des programmes informatiques qui vont simuler ou tester le fonctionnement d'un algorithme.

Quelle est la principale limite des méthodes actuelles ?

Contrairement aux enquêtes traditionnelles, il est plus difficile d'obtenir des résultats clairs et donc d’établir des responsabilités bien définies. De nombreux acteurs interviennent dans le développement et la diffusion des algorithmes, et le fonctionnement de ceux-ci est très complexe.

« Dans le cadre de mon laboratoire, nous avons étudié le moteur de recherche Google ou la fixation des prix par Uber, raconte Nicholas Diakopoulos, ces systèmes sont très compliqués et il est difficile voire impossible d'isoler l'algorithme des effets d'un input biaisé, ou du comportement humain qui forge l'apprentissage de l'algorithme. Par exemple, est-ce l'algorithme de classement des recherches de Google qui est biaisé, ou le modèle qu'il déduit par un apprentissage basé sur les clics de millions d'usagers biaisés ? »

« Pour contrôler de tels facteurs sociaux, vous avez besoin d'un accès parfait à l'algorithme pour effectuer une expérimentation correcte », continue Nicholas Diakopoulos. Pour l'informaticien Suresh Venkatasubramanian, ces difficultés peuvent être surmontées grâce à de nouvelles recherches : « Lorsque nous abordons de nouveaux cas, nous en apprenons un peu plus sur les types de problèmes techniques ou mathématiques que l'on peut rencontrer, cela nous donne une impulsion pour de nouvelles recherches ».

Les journalistes doivent donc être prêts expliciter les limites de leurs recherches. Ils peuvent choisir d'être transparents et de partager leurs données sur internet afin de faciliter des vérifications et d'alimenter le débat méthodologique en cours.

Les enquêtes menées ont-elles un impact ?

Bien qu'il soit avant tout chercheur à l'Université du Maryland, Nicholas Diakopoulos est un des pionniers des enquêtes journalistiques sur les algorithmes. Un de ses premiers travaux a été publié sur Slate en 2013 et portait sur la fonction d'autocomplétion de Google, celle qui nous propose des suggestions quand nous commençons à taper les mots d'une recherche. Certains mots n'offrent aucune suggestion car ils sont censurés par un algorithme de filtrage – ce sont principalement des termes liés au sexe et à la pornographie. Cependant, Nicholas Diakopoulos a démontré dans son article que certaines expressions associant child (enfant) à d'autres mots à connotation sexuelle n'étaient pas censurés. « Suite à la publication de l'article, un spécialiste de Google m'a dit qu'ils avaient pris note et allaient traiter les problèmes liés aux autocomplétions pour la pornographie infantile », rapporte-t-il.

Le site indépendant américain ProPublica est spécialisé dans les enquêtes d'intérêt public. Une partie de sa rédaction s'intéresse aux injustices engendrées par le recours aux algorithmes. Son principal travail dans ce domaine s'est focalisé sur l'algorithme COMPAS de l'entreprise Northpointe qui détermine à partir de multiples critères un score lié au risque de récidive d'un prévenu. Ce score est communiqué au magistrat lors du jugement ou de la décision de remise en liberté conditionnelle. Après avoir recueilli les scores de 7 000 personnes arrêtées dans un comté de Floride et les avoir comparé aux cas réels de récidive durant les deux années suivantes, les journalistes de ProPublica ont conclu que l'algorithme avait un double biais racial : beaucoup de prévenus noirs considérés à haut risque n'avaient pas récidivé et de nombreux prévenus blancs jugés à faible risque avaient récidivé.

Cette enquête a créé un important débat aux États-Unis et est entrée en résonance avec d'autres études sur les biais raciaux des algorithmes. À la suite de la publication de l'enquête en mai 2016, la cour suprême du Wisconsin a jugé que COMPAS peut être utilisé mais que les juges ne doivent pas prendre ce score comme un facteur déterminant dans leur décision. De plus, ils doivent être avertis des limites relatives à l'exactitude de l'algorithme.

L'impact est plus important si l'enquête crée un buzz et si les conclusions remettent en cause l'image de l'entreprise

Pour l'équipe de ProPublica, cet avis de la cour suprême du Wisconsin est un premier pas. L'impact des enquêtes sur les algorithmes est contrasté. En l'absence de relais judiciaires aux enquêtes, de nombreuses organisations incriminées ne réagissent pas aux révélations ou de manière très lacunaire. L'impact est plus important si l'enquête crée un buzz et si les conclusions remettent en cause l'image de l'entreprise, comme c'est généralement le cas pour les accusations de biais raciste ou sexiste.

Quels sont les défis légaux ?

Si les algorithmes peuvent discriminer et engendrer des injustices, ils ont besoin d'être contrôlés et régulés. Dans le sillage des enquêtes journalistiques et des recherches académiques, une réflexion importante est en cours concernant la notion de « responsabilisation » des algorithmes.

« Si les systèmes algorithmiques font des erreurs ou ont des conséquences non-désirées, affirmer simplement « c'est l'algorithme qui a fait ça » n'est pas une excuse acceptable, soutient Nicholas Diakopoulos, la responsabilité implique l'obligation de signaler et de justifier les décisions algorithmiques, et d'atténuer les impacts sociaux négatifs ». Dans le cadre d'une initiative conjointe avec d'autres spécialistes, il propose aux concepteurs d'algorithmes de respecter cinq principes fondamentaux : responsabilité, explicabilité, exactitude, auditabilité et équité.

Ce sont « des jolis mots » pour la sociologue Anna Jobin qui les compare à la charte des droits de l'homme : « De la reconnaissance de leur importance à comment faire pour appliquer ces principes, il y a un écart immense et pas de recette claire ». Un important travail est nécessaire pour transposer en termes mathématiques ou informatiques des notions plutôt juridiques ou morales.

En France, à la suite de l'adoption de la loi sur la République Numérique, l'État a soutenu la création d'une plateforme publique d'évaluation scientifique dénommée Transalgo. C'est la première initiative de ce type en Europe, son but est de développer des tests éthiques pour les algorithmes et de promouvoir leur diffusion dans les secteurs publics et privés. Ce type d'initiative pourrait à terme permettre la définition de normes nationales ou internationales reconnues.

Un encadrement législatif plus fort pourrait favoriser la transparence et l'équité des algorithmes. L'UE est en pointe dans ce secteur mais les contraintes sont pour l'heure très faibles. Une directive européenne, qui entrera en vigueur en mai 2018, introduira un « droit à l'explication » pour les citoyens et les consommateurs concernant les décisions prises par des algorithmes. Elle interdit aussi les décisions fondées exclusivement sur un traitement automatisé. Mais la mise en œuvre de ces deux dispositions reste encore floue.

« Nous devons adapter les lois, particulièrement celles qui protègent contre les discriminations, estime Felix Stadler, professeur de culture numérique à la Haute Ecole d'art de Zurich. Il doit être possible pour les travailleurs, employés, consommateurs et citoyens de déterminer s'ils sont victimes d'une discrimination à cause d'une décision automatique et si c'est le cas, de demander une compensation ». Pour faire évoluer la situation actuelle très favorable aux intérêts des entreprises privées ou des États, de nombreuses voix appellent la société civile à s'impliquer plus fortement et à mobiliser les citoyens.

--
Crédit :
Ina. Illustration Guillaume Long

C G

Clément GIRARDOT

Ne passez pas à côté de nos analyses

Pour ne rien rater de l’analyse des médias par nos experts,
abonnez-vous gratuitement aux alertes La Revue des médias.

Retrouvez-nous sur vos réseaux sociaux favoris

Les réseaux sociaux : reflet des différences culturelles ?

Les réseaux sociaux sont devenus en quelques années l’un des principaux usages du web. Mais quelle en est la véritable définition et surtout, en avons-nous tous la même utilisation en fonction de nos différences culturelles ?

par

Nikos

Smyrnaios

le 07 février 2011