Un développeur indépendant a reçu une facture de 1 933 dollars pour son petit site web. Le mois précédent, il payait 30 dollars. Le coupable : un robot d’exploration de Meta qui avait envoyé 11,2 millions de requêtes en trente jours, soit plus de quatre par seconde, sans jamais demander la permission.

Ce genre de mésaventure se multiplie depuis deux ans. Derrière, un phénomène que la plupart des internautes ignorent : pour entraîner ChatGPT, Claude, Gemini ou Grok, les entreprises d’intelligence artificielle lâchent des armées de programmes automatisés sur le web. Ces robots, appelés crawlers, aspirent des milliards de pages chaque jour. En 2025, ils représentaient déjà près de la moitié du trafic mondial sur internet, selon les données de Cloudflare. Le PDG de l’entreprise, Matthew Prince, a prévenu lors du SXSW en mars 2026 : d’ici 2027, les robots dépasseront définitivement les humains en ligne.

Sauf que cette collecte massive n’a plus grand-chose à voir avec l’indexation classique de Google. Et les sites web n’ont presque aucun moyen de s’en protéger.

Un aspirateur à pages, pas un moteur de recherche

Le principe du crawler est vieux comme le web. Quand Google indexe un site, son robot (Googlebot) visite les pages, lit leur contenu et l’ajoute à son index. En échange, le site apparaît dans les résultats de recherche. C’est un deal tacite qui fonctionne depuis 1998 : le robot prend votre contenu, mais il vous envoie des visiteurs en retour.

Les crawlers d’IA fonctionnent sur le même principe technique. GPTBot (OpenAI), ClaudeBot (Anthropic), Meta-ExternalAgent (Meta) parcourent le web page par page, lien après lien. La différence se situe dans ce qu’ils font ensuite : au lieu d’indexer la page pour la rendre trouvable, ils ingèrent le texte pour entraîner un modèle de langage. Le contenu disparaît dans un réseau de neurones artificiels. Il ne sera jamais attribué, jamais sourcé, jamais lié. Le site n’y gagne rien.

Les chiffres de Cloudflare illustrent le déséquilibre. Pour chaque visiteur qu’Anthropic redirige vers un site après l’avoir aspiré, ClaudeBot a envoyé 50 000 requêtes de collecte. Chez OpenAI, le ratio tombe à 887 requêtes pour un visiteur renvoyé. Perplexity, qui se positionne comme un moteur de recherche IA, affiche un ratio de 118 pour 1. Dans le secteur de la presse, ces chiffres baissent un peu (2 500 pour 1 chez Anthropic, 152 pour 1 chez OpenAI), mais restent vertigineux comparés à Googlebot, qui renvoie du trafic à chaque page indexée.

80 % du trafic IA sert à entraîner les modèles

Tous les robots IA ne font pas la même chose. Cloudflare distingue trois catégories. Les crawlers d’entraînement, qui aspirent des volumes massifs pour alimenter les prochaines versions des modèles. Les crawlers en temps réel, déclenchés quand un utilisateur pose une question à ChatGPT ou Perplexity et que le chatbot va chercher l’information sur le web. Et les crawlers « agentiques », pilotés par des IA autonomes qui naviguent seules pour accomplir une tâche.

L’entraînement domine largement : il représente 80 % du trafic IA mesuré. Les requêtes en temps réel et agentiques pèsent moins de 5 % chacune, mais leur croissance explose. Le trafic agentique a bondi de 6 900 % en un an. Celui des scrapers (des robots qui copient des données structurées comme des prix ou des avis) a grimpé de 597 %.

Côté parts de marché, OpenAI écrase la concurrence. Ses robots généraient 69 % du trafic IA observé en 2025. Meta suivait à 16 %, Anthropic à 11 %. GPTBot a vu son trafic bondir de 305 % en un an. PerplexityBot, lui, a affiché une progression de 157 490 %, partant quasiment de zéro.

Le fichier que tout le monde ignore

Pour se protéger, les sites web disposent d’un outil vieux de 1994 : le fichier robots.txt. Ce petit document texte, placé à la racine d’un site, indique aux robots quels chemins ils ont le droit de parcourir et lesquels sont interdits. Googlebot respecte ces règles depuis trois décennies. C’est un contrat de confiance, pas une barrière technique. Rien n’empêche un robot de l’ignorer.

Et c’est exactement ce qui se passe. Au deuxième trimestre 2025, 13,26 % des requêtes de robots IA ignoraient les directives robots.txt, contre 3,3 % six mois plus tôt, selon les données de Cloudflare. Certains opérateurs utilisent des « proxys résidentiels », des réseaux de connexions domestiques piratées, pour maquiller leurs robots en visiteurs humains ordinaires. D’autres changent régulièrement l’identifiant de leur crawler pour contourner les blocages.

GPTBot et ClaudeBot figurent parmi les robots les plus fréquemment bloqués par les administrateurs de sites. Mais bloquer un identifiant ne sert à rien si le robot en change le lendemain. La fondation Wikimedia, qui gère Wikipedia, a dû passer à des mesures plus agressives : elle bloque ou ralentit désormais 25 % de toutes les requêtes automatisées qu’elle reçoit, soit des milliards de requêtes par jour. Malgré cela, les crawlers continuent d’affluer en se faisant passer pour des navigateurs classiques.

La facture retombe sur les petits

Pour les géants du web, le problème reste gérable. Google, Amazon et Cloudflare disposent d’infrastructures capables d’absorber le surplus de trafic. Pour les sites plus modestes, les blogs, les médias indépendants, les forums communautaires, la note peut être salée.

Chaque requête d’un crawler consomme de la bande passante et de la puissance de calcul. Quand un robot envoie quatre requêtes par seconde pendant un mois, cela représente plus de dix millions de pages servies gratuitement. Les hébergeurs facturent le trafic au gigaoctet. Un site qui fonctionnait avec un budget modeste se retrouve à financer, sans le savoir, l’entraînement d’un modèle valorisé à des centaines de milliards de dollars.

Les sites open source sont particulièrement touchés. Cloudflare a documenté un effondrement du trafic humain vers les projets open source, remplacé par des robots IA qui aspirent la documentation technique. Les contributeurs bénévoles voient leur travail ingéré par des entreprises commerciales, sans compensation ni crédit.

Des solutions, mais pas de règle du jeu

Plusieurs pistes émergent pour rééquilibrer la situation. Cloudflare propose depuis 2025 un système de robots.txt géré automatiquement, qui se met à jour à mesure que de nouveaux crawlers apparaissent. La fondation Wikimedia teste un accès à deux vitesses : les robots qui s’identifient correctement obtiennent des limites de requêtes plus généreuses, ceux qui trichent sont étranglés. Certains éditeurs, comme le New York Times, ont choisi la voie judiciaire et attaquent directement OpenAI pour violation de droits d’auteur.

L’AI Act européen, dont l’intégralité des mesures entre en vigueur en 2026, impose aux entreprises d’IA une transparence totale sur leurs sources de données d’entraînement. Les développeurs de modèles devront documenter quels sites ont été aspirés, en quelle quantité, et prouver qu’ils respectent le droit d’auteur européen. Ce cadre pourrait forcer les acteurs américains à négocier des licences avec les éditeurs de contenu, comme certains le font déjà (OpenAI a signé des accords avec Le Monde, l’Associated Press et Axel Springer).

Le Parlement européen examine un renforcement des obligations de traçabilité des données d’entraînement pour le second semestre 2026. La Commission travaille en parallèle sur un registre public des crawlers IA opérant sur le sol européen. En attendant, 50 milliards de requêtes de robots IA frappent le réseau Cloudflare chaque jour, et la courbe ne montre aucun signe de ralentissement.