L’IA a lu 250 milliards de pages web pour apprendre

Le Sénat français vient de voter une loi révolutionnaire : les entreprises d’IA seront désormais présumées coupables d’avoir utilisé vos oeuvres sans permission, à charge pour elles de prouver le contraire. Mais pour comprendre pourquoi ce vote est une bombe, il faut d’abord répondre à une question que beaucoup de gens n’ont jamais osé poser : comment ChatGPT, Midjourney ou Suno ont-ils appris à écrire, dessiner et composer ? D’où viennent toutes ces connaissances ? La réponse tient en un mot : vous. Et 250 milliards de pages web.

Un aspirateur géant qui tourne depuis 2008

Tout commence avec une organisation dont vous n’avez probablement jamais entendu parler : Common Crawl. Fondée en 2008, cette association à but non lucratif californienne fait une seule chose en continu depuis dix-sept ans : elle parcourt l’intégralité du web accessible, page par page, et sauvegarde tout. Les articles de journaux. Les forums. Les blogs. Les fiches Wikipédia. Les commentaires YouTube. Les posts Reddit. Les recettes de cuisine. Les dissertations d’étudiants. Tout.

Son archive représente aujourd’hui environ 250 milliards de pages web, soit plusieurs pétaoctets de texte brut. Et surtout, Common Crawl met tout cela à disposition gratuitement pour les chercheurs et les entreprises. Le résultat ? Selon un rapport de Mozilla publié en 2024, les deux tiers des 47 grands modèles de langage créés entre 2019 et 2023 se sont appuyés sur ces données. GPT-3, le prédécesseur de ChatGPT, a lui été entraîné sur 450 milliards de tokens (des fragments de mots), dont 67 % provenaient directement de Common Crawl.

Concrètement, cela signifie que votre site personnel, votre blog publié il y a dix ans, les articles de votre journal régional préféré : tout cela a potentiellement été aspiré, découpé en morceaux, et utilisé pour apprendre à un programme à construire des phrases cohérentes en français. Sans qu’on vous demande votre avis.

Cinq milliards d’images en un seul dataset

Pour les textes, c’est Common Crawl. Pour les images, c’est LAION. Derrière cet acronyme se cache une organisation allemande à but non lucratif qui a constitué, entre 2021 et 2022, le plus grand ensemble de données images jamais créé : LAION-5B, soit 5,85 milliards de paires image-texte. Pour y parvenir, ses équipes ont utilisé une méthode simple : parcourir les archives de Common Crawl, repérer toutes les balises HTML contenant une image et un texte descriptif (l’attribut « alt text »), et les enregistrer comme paires.

Ce dataset est directement à l’origine de Stable Diffusion, le générateur d’images open source qui a popularisé la création visuelle par IA. Autrement dit, des millions de photographies de photographes professionnels, d’illustrations d’artistes, d’oeuvres publiées sur des portfolios en ligne, ont alimenté un système capable de reproduire n’importe quel style pictural en quelques secondes. Là encore, sans consentement.

Un audit réalisé en 2025 sur CommonPool, un dataset similaire, a révélé que même après filtrage, 0,1 % des données contenaient encore des visages identifiables, des pièces d’identité et des curriculum vitae. Ce pourcentage semble faible. À l’échelle de milliards de fichiers, il représente des centaines de millions de personnes concernées.

Les livres : la partie la moins racontée

Au-delà du web et des images, les grandes entreprises d’IA ont eu besoin d’une autre ressource précieuse : des textes longs et bien écrits. Des romans. Des essais. Des manuels techniques. Des scénarios. Le web regorge de textes courts et souvent mal rédigés. Pour donner à un modèle le sens de la nuance, du raisonnement complexe, du style littéraire, il fallait autre chose.

La solution utilisée par plusieurs acteurs du secteur a été documentée dans des recherches académiques et des procédures judiciaires : le recours à des « shadow libraries », ces bibliothèques pirates en ligne comme Z-Library ou Bibliotik, qui hébergent des millions de livres numérisés sans autorisation. Dans l’affaire Kadrey contre Meta, des auteurs ont établi que Llama, le modèle d’IA de Meta, avait été entraîné sur des exemplaires non autorisés de leurs oeuvres.

Plus frappant encore : une étude publiée sur arXiv fin 2024 a appliqué une méthode d’attaque informatique appelée « membership inference » (inférence d’appartenance) à GPT-4o. Elle a constaté que le modèle reconnaissait avec un taux de 82 % des livres techniques O’Reilly protégés par paywall. Un signe très fort que ces livres, achetés légalement par des tiers puis versés dans des bases d’entraînement, ont bien servi à former le modèle, sans que leurs éditeurs en soient informés.

Pourquoi les entreprises ont agi ainsi

Ce n’était pas uniquement une question de cynisme ou de mauvaise foi. Les ingénieurs qui ont conçu ces systèmes entre 2017 et 2022 partaient d’un principe technique fondamental : plus les données d’entraînement sont volumineuses et variées, meilleur est le modèle. Il n’existait tout simplement pas, à l’époque, de corpus licenciés suffisamment grands pour entraîner des modèles à l’échelle requise. Le web, lui, offrait une ressource quasi infinie.

La question du droit d’auteur a longtemps été repoussée sous l’argument du « fair use », un principe du droit américain qui autorise dans certains cas l’utilisation d’oeuvres protégées sans autorisation, notamment à des fins de recherche ou de transformation. OpenAI, Google et consorts ont défendu que l’entraînement d’une IA relevait de cette exception, car le modèle ne « reproduit » pas les oeuvres, il en extrait des patterns statistiques.

Mais la jurisprudence évolue. En février 2025, un tribunal fédéral américain a estimé que l’entraînement d’une IA sur des données personnelles non licenciées constituait une infraction. Et en Europe, la France vient de franchir un pas décisif.

Ce que la France vient de changer concrètement

Jusqu’à présent, si un auteur voulait prouver que son roman avait servi à entraîner ChatGPT, il lui fallait démontrer lui-même que son oeuvre figurait dans les données d’entraînement. Un exercice quasiment impossible : OpenAI, Anthropic, Mistral et les autres n’ont jamais publié l’inventaire complet de leurs datasets.

La proposition de loi adoptée par le Sénat le 8 avril 2026 renverse ce rapport de force. Désormais, dès qu’une IA générative produit un contenu « à la manière » d’un auteur identifiable, ou cite des éléments qui ressemblent à une oeuvre protégée, la présomption d’utilisation de cette oeuvre est automatiquement établie. C’est à l’entreprise d’IA de prouver qu’elle n’a pas utilisé la donnée, et non plus au créateur de prouver qu’elle l’a fait.

Concrètement, cela signifie que si Suno génère un morceau qui ressemble à un titre de Juliette Armanet, c’est Suno qui devra apporter la preuve que sa musique n’a pas été utilisée pour entraîner son modèle. Et si elle ne peut pas le prouver, la présomption vaut confirmation. Ce mécanisme, validé par le Conseil d’État en mars 2026, vise autant à faciliter les procès qu’à inciter les plateformes à négocier des accords de licence avant même qu’une oeuvre soit utilisée.

L’étape suivante sera l’Assemblée nationale, où le texte doit encore être discuté. Plusieurs acteurs, dont Mistral AI, ont proposé en alternative un fonds collectif alimenté par un pourcentage de leurs revenus, une solution rejetée par la Sacem et les syndicats d’auteurs. Quoi qu’il arrive, le temps où l’on pouvait avaler 250 milliards de pages web sans rendre de comptes semble toucher à sa fin.

L’IA a lu 250 milliards de pages web pour apprendre : comment ça s’est passé

Un aspirateur géant qui tourne depuis 2008

Cinq milliards d’images en un seul dataset

Les livres : la partie la moins racontée

Pourquoi les entreprises ont agi ainsi

Ce que la France vient de changer concrètement

À lire aussi

Partager

Laisser un commentaire Annuler la réponse

Articles similaires

272 messages à ChatGPT avant de tirer : la Floride ouvre une enquête sur OpenAI

Musique, livres, films : le Sénat décide que l’IA a volé jusqu’à preuve du contraire

Vos oeuvres pillées par l’IA : la France retourne la charge de la preuve