L’intelligence artificielle, nouvelle donne dans la relation entre médias et Big Tech
Avec l’IA générative, les géants du numérique touchent désormais au cœur de métier des médias. Avec quelles contreparties et quelles conséquences ?
Open AI a signé des contrats avec plusieurs grands groupes de médias, dont Le Monde, en France.
© Crédits photo : JULIEN DE ROSA / AFP
Avec l’IA générative, les géants du numérique touchent désormais au cœur de métier des médias. Avec quelles contreparties et quelles conséquences ?
Ils ne peuvent plus se passer les uns des autres : depuis plus de vingt ans, une relation d’interdépendance lie les médias aux plateformes dominantes du numérique. Ces dernières ont besoin d’alimenter leurs services avec l’information produite par des organisations employant des journalistes, qui elles-mêmes peuvent difficilement se priver de ces intermédiaires décisifs dans l’accès aux internautes.
Au fil du temps, cette relation devient de plus en plus asymétrique et intégrative, au sens où les acteurs de la Big Tech étendent leur emprise sur les médias. L’expansion de l’IA générative constitue une nouvelle étape dans ce processus et un changement profond de nature.
Au cours des années 2000, l’industrie du numérique s’est trouvée progressivement sous le contrôle d’un petit nombre d’acteurs de taille critique — désignés habituellement par l’acronyme Gafam (Google, Apple, Facebook, Amazon et Microsoft). Les médias ont dû passer par leurs plateformes (moteurs de recherche, réseaux sociaux numériques, services de streaming) pour atteindre un maximum d’internautes. Cela nécessitait de se conformer aux algorithmes de services d’indexation et de recommandation spécialisés : Google News créé en 2002, Facebook News Feed et Live Search News (devenu Bing), lancés respectivement en 2006 et 2008, etc.
Cette première étape impliquait déjà une forme d’encadrement infrastructurel dans la mesure où l’indexation et le partage en ligne de contenus nécessitent leur rapatriement sur les serveurs des plateformes et la republication d’extraits (snippets) par celles-ci. Les médias se sont alors peu ou prou convertis aux stratégies d'optimisation de leur référencement (SEO, pour Search engine optimization, et aussi SMO, pour Social media optimization), première forme d’alignement sur les logiques de l’industrie du numérique.
Un second tournant s’opère au milieu des années 2010 avec le basculement de l’information en ligne vers les smartphones et les applications adaptées à leurs écrans. Pour y figurer, les médias doivent recoder leurs contenus dans un programme compatible avec chacun des systèmes d’exploitation de ces appareils (un duopole constitué par Android de Google et iOS d’Apple) en employant leur SDK (Software Development Kit). Google réussit même à imposer aux éditeurs une version simplifiée du langage HTML dédiée au contenu mobile (Accelerated Mobile Pages, AMP), afin de réduire le délai de chargement des pages. Cette conformation logicielle, assez généralisée parmi l’ensemble des médias, se complète pour certains par une autre étape dans l’encadrement infrastructurel : leurs contenus se retrouvent directement hébergés et publiés par les plateformes oligopolistiques, comme Facebook avec Instant Articles, lancé en 2015 et arrêté depuis avril 2023, et Snapchat avec Discover, lancé la même année et toujours disponible.
L’absorption des contenus des médias par les plateformes est devenue bien plus massive encore ces dernières années avec le développement des services fondés sur des modèles d’IA générative qui nécessitent pour leur entraînement de vastes ensembles de données. Leur généralisation renforce la structure oligopolistique de l’industrie du numérique car elle consomme des ressources considérables. Les acteurs qui disposent déjà des plus importantes infrastructures dans le cloud (Amazon avec AWS, Microsoft avec Azure, et Google avec GCP) en profitent pour y intégrer des services d’IA développés en interne ou en partenariat avec d’autres leaders du marché (Salesforce, Adobe, Oracle) et des start-up qu’ils financent directement (Microsoft avec Open AI, Amazon et Google avec Anthropic). De leur côté, Apple et Meta poursuivent des stratégies différenciées : le premier intègre une solution d’IA générative fonctionnant en local dans son système d’exploitation iOS, présenté comme plus rapide et plus respectueuse de la vie privée ; le second mise sur l’open source avec son modèle Llama et sur les effets de réseaux générés par les trois milliards d’utilisateurs de ses services.
En plus des dernières nouvelles, les archives sont maintenant utilisées
Les acteurs oligopolistiques du numérique occupent ainsi une position clé dans le domaine des modèles de fondation qui, à l’image de Gemini (Google) ou Llama (Meta), sont adaptés à un large éventail de tâches. Ils s’équipent de micro-processeurs parmi les plus performants, au prix d’achats onéreux auprès du leader des cartes graphiques (Nvidia) ou d’efforts colossaux en R & D (processeurs Tensor Processing Unit de Google et M4 d’Apple). L’entraînement et l’amélioration de ces modèles impliquent l’absorption de grandes quantités de données variées, parmi lesquelles les contenus produits par les journalistes occupent une place de choix. Cette thésaurisation ne se limite plus aux dernières nouvelles mais inclut les archives pouvant remonter à plusieurs décennies. Elle constitue à ce titre une nouveauté majeure puisque conduisant à une intégration infrastructurelle presque totale.
À l’origine, c’était essentiellement en aval de la filière de l’information que les Gafam jouaient un rôle prépondérant, assurant la mise en relation avec les internautes, par le biais de leurs plateformes de distribution (moteurs de recherche, réseaux sociaux, magasins d’application). Au fil des années, ils ont progressivement remonté la filière, empiétant sur les activités de production, sans toutefois y jouer un rôle aussi primordial. Certes, ils offrent des outils indispensables aux journalistes et éditeurs (messagerie, recherche, communication, visualisation, montage, analytics) et prennent en charge des programmes de formation (Google News Initiative, Facebook Journalism Project), mais dans une logique d’assistance et non de substitution.
Les progrès accomplis en IA générative sont susceptibles de changer assez radicalement la donne à ce niveau. En générant automatiquement quantité de textes, d’images et de sons, et en anticipant les moments et espaces les plus opportuns pour leur publication sur la base de prédiction des comportements des utilisateurs, les dispositifs d’IA peuvent désormais non seulement constituer des outils à disposition des journalistes et des éditeurs pour faciliter leur travail (veille, documentation, traduction, rédaction) mais aussi exécuter ces tâches à leur place.
Comme mentionné précédemment, les procédés d’IA les plus performants reposent sur des modèles de fondation élaborés par une poignée d’acteurs qui recoupent peu ou prou le périmètre des Gafam (et BATBX pour les acteurs chinois Baidu, Alibaba, Tencent, ByteDance et Xiaomi). Ces géants oligopolistiques ajoutent ainsi une composante d’IA à leurs plateformes de distribution existantes, que ce soit des moteurs de recherche (AI Overviews dans Google, Copilot dans Bing de Microsoft) ou des réseaux sociaux numériques (Meta AI dans Facebook ou Instagram). Les start-up se positionnent également dans cette relation directe avec les internautes, à l’image de Perplexity, société dont les services consistent en des variantes spécialisées des modèles de fondation des acteurs dominants (Llama de Meta et GPT d’Open AI). Il est par ailleurs probable que les entreprises de médias, si elles veulent elles-mêmes élaborer leurs propres services d’IA, doivent composer avec les modèles de fondation dominants, ce que tend à illustrer le récent prototype Spinoza commandité par des membres de l’Alliance de la presse d’information générale, prototype qui repose sur GPT d’OpenAI.
Les services de contenus d’actualité liés à l’IA générative diffèrent en nature de ceux proposés jusqu’ici par les entreprises dominantes du numérique. Ils poussent à son paroxysme une logique de déstructuration-recomposition de la matière première informationnelle fournie initialement par les médias.
Jusqu’à l’arrivée d'Internet, les médias s’apparentaient à des objets finis : chaque journal, magazine, station de radio ou chaîne de télévision possédait son unité propre. Celle-ci s’est disloquée avec les moteurs de recherche et les réseaux sociaux numériques, assemblant des extraits des médias sur leurs pages de résultats et fils d’actualité : titre et chapô d’un article, illustration photographique, séquence vidéo, etc. Dans le cas des agrégateurs de nouvelles (Google News, Apple News), ces extraits se sont même retrouvés ré-agencés à la façon d’un média : organisation en rubriques, apparition chronologique donnant la primauté à l’actualité la plus chaude.
Un palier supplémentaire est franchi avec le recours à l’IA
En comparaison de cette activité d’énonciation éditoriale déjà exercée par les Gafam, un palier supplémentaire est franchi avec le recours à l’IA. Les contenus ainsi générés ne consistent pas en une simple juxtaposition de modules (titres, photographies, etc.) produits par d’autres. De ces multiples entités infra-médiatiques qui possèdent chacune leur cohérence interne, les dispositifs d’IA extraient les composants atomiques que sont les tokens (suites de caractères), et les pixels, et évaluent leurs probabilités statistiques d’association en vue de retisser d’autres textes et d’autres images. Ainsi, avec l’IA générative, les entreprises de la Big Tech touchent désormais au cœur de métier des médias en assurant une activité de composition de textes et d’images, une énonciation auctoriale (un travail d’auteur) qui restait jusqu’ici leur apanage.
Quelques tâches, essentielles, demeurent, pour l’instant, exclusives aux journalistes et éditeurs : décider qu’un problème constitue un sujet journalistique, enquêter et collecter des informations, et choisir un angle. Cette activité de constitution de l’agenda médiatique, de cadrage et de confection de l’information a un coût que les entreprises de médias assument seules. Comment financer cette activité ?
La solution en train de s’esquisser relève de compensations financières versées par les entreprises de l’IA. Très active sur ce point, Open AI a signé des contrats avec plusieurs grands groupes de médias : Le Monde en France, mais aussi Prisa en Espagne, Axel Springer en Allemagne, News Corp au Royaume-Uni, aux États-Unis et en Australie, etc. Associated Press, l’une des trois agences d’envergure mondiale, a même accordé l’accès à ses archives depuis 1985.
En général, le deal est le suivant : Open AI est autorisée d’une part à accéder aux archives qui permettent d’entraîner son modèle de fondation GPT et d’autre part à exploiter les informations les plus récentes pour les intégrer aux synthèses délivrées par son agent conversationnel ChatGPT. Parallèlement, Open AI déploie des outils ad hoc au sein des entreprises de média, adaptés à leurs besoins (exemples : optimisation publicitaire pour le groupe états-unien Vox Media, bouquet de services News AI Catalyst pour plus de 100 journaux membres de la World Association of Newspapers).
Ce manque à gagner est susceptible d’amputer doublement les revenus des médias
Les montants de ces accords sont estimés à plusieurs millions, voire dizaines de millions d’euros. Compensent-ils le manque à gagner amené par la concurrence de ces mêmes entreprises d’IA ? Aujourd’hui difficile à chiffrer, ce manque à gagner est toutefois susceptible d’amputer doublement les revenus des médias : ce sont à la fois les ventes d’information aux particuliers et les ventes d’espaces publicitaires qui risquent de baisser si une partie des internautes se satisfait des synthèses directement générées par les agents conversationnels et les moteurs de réponse, et ne se rend pas sur l’application ou le site web du média. Ces revenus seront donc amoindris, en sachant qu’ils étaient déjà partagés (information payante ou abonnement via les magasins d’application) ou captés (liens sponsorisés sur les moteurs de recherche et réseaux sociaux numériques) par les Gafam.
Encore faut-il que ces derniers soient enclins à rétribuer les médias. À ce jour, ni Meta ni Alphabet-Google ne semblent s’engager dans une telle démarche : aux États-Unis, Meta AI et AI Overviews de Google génèrent des contenus à partir d’informations émanant de plusieurs médias sans indemniser aucun d’entre eux. Ces deux entreprises avaient déjà été plus que réticentes, en France, pour respecter la loi sur les droits voisins. La dernière décision de l’Autorité de la concurrence est venue le rappeler en infligeant une nouvelle amende à Google. Et cette même décision embrayait déjà sur la séquence à venir en soupçonnant Google d’avoir entraîné son modèle de fondation Bard (renommé aujourd’hui Gemini, et base d’AI Overviews) en aspirant quantité d’informations de médias français sans leur demander l’autorisation.
Les entreprises dominantes de l’IA tirent donc doublement profit des informations élaborées par les médias : elles mobilisent les informations les plus récentes pour générer des contenus de synthèse portant sur l’actualité, et elles exploitent la totalité des archives des médias pour entraîner leurs modèles de fondation à usage générique (general purpose) qui constituent des sources de profit dans bien d’autres domaines que l’information. Pourtant, certaines d’entre elles ne reversent aucune contrepartie, quand d’autres le font à une hauteur dont on ne sait si elle compense véritablement le manque à gagner.
En outre, ces rares versements sont pour l’heure réservés à un cercle très restreint de médias. Il s’agit des groupes leaders dans chacun de leurs pays respectifs, ou à l’échelle internationale comme les grandes agences d’information : ces acteurs sont assez incontournables pour les entreprises d’IA car ils dictent l’agenda médiatique, et disposent par ailleurs de suffisamment de ressources financières pour endurer une action en justice en cas de non-accord. La situation est toute autre pour les acteurs de plus petite taille ou plus éloignés du mainstream médiatique. Ils ne sont pas en position de pouvoir négocier un accord et d’obtenir des compensations, si bien que celles-ci ne sont pas seulement inéquitables pour les médias en général, mais aussi inéquitables entre les médias.
À moins que n’apparaissent des fournisseurs d’IA alternatifs et attachés à la soutenabilité de la création journalistique sur le long terme, cette situation d’inéquité risque de perdurer sauf si elle venait à être corrigée par un interventionnisme public fort. Il devra toutefois être particulièrement attentif aux effets pervers potentiels. Ainsi, la réglementation européenne la plus récente sur le sujet, dénommée AI Act, pourrait-elle paradoxalement renforcer la concentration dans le secteur : en s’appuyant principalement sur les fournisseurs de technologie pour identifier et atténuer les risques systémiques liés aux applications d’IA, cette législation incite indirectement les médias à adopter des solutions clé en main au lieu d’en développer en interne, de manière à se sécuriser sur le plan juridique.
Cette configuration complexe est susceptible d’engendrer des conséquences encore plus fondamentales sur le plan politique, étant donné le poids de l’information en démocratie. Avec l’IA générative, les entreprises de la Big Tech endossent un nouveau rôle consistant à produire une information dont l’uniformisation engendrée pourra écraser l’expression de sources dissonantes. Avec le risque à terme d’assécher le vivier créatif humain qui sous-tend la production culturelle.
L’intelligence artificielle promet de révolutionner l’organisation du travail dans de nombreux milieux, y compris dans les médias. Ils s'y sont d'ailleurs déjà adaptés. Exploration de cinq cas de figure, de l’illustration des articles à l’analyse de documents.
La démocratisation rapide de l’intelligence artificielle confronte les rédactions à un défi de taille : comment saisir les opportunités de ces nouveaux outils sans détériorer la déontologie des journalistes et la confiance du public ?
Pendant longtemps, la télé a flouté les personnes qui souhaitaient témoigner de façon anonyme. Ces floutages sont désormais contournables grâce à l’intelligence artificielle. Pour trouver des solutions qui permettent de continuer à assurer la protection de ces témoins, une course contre la montre s'est engagée à France Télévisions.