Six pièges suffisent à détourner un agent IA : Google DeepMind révèle comment

Un simple commentaire HTML invisible, quelques mots cachés dans les métadonnées d’une image, et votre assistant IA obéit à un inconnu. Google DeepMind vient de publier la première classification complète de ces attaques, qu’il baptise « pièges pour agents IA ». Le constat est brutal : chaque catégorie dispose déjà de preuves de concept fonctionnelles.

Les agents autonomes, ces programmes capables de naviguer sur le web, de répondre à vos emails ou de passer des commandes en votre nom, sont présentés comme l’avenir de l’intelligence artificielle. Sauf que l’environnement dans lequel ils évoluent peut se retourner contre eux. Et les chercheurs de Google DeepMind viennent de cartographier exactement comment.

Des instructions invisibles que seul le robot lit

La première catégorie, les « pièges par injection de contenu », cible la perception de l’agent. Ce que vous voyez sur une page web n’est pas ce que l’IA traite : un attaquant peut enterrer des instructions malveillantes dans le code HTML, dans les feuilles de style CSS ou dans les balises d’accessibilité. L’humain ne remarque rien. L’agent, lui, lit et exécute sans broncher.

La deuxième famille d’attaques s’en prend au raisonnement. Un contenu formulé sur un ton autoritaire ou émotionnellement chargé suffit à fausser les conclusions de l’IA. Les grands modèles de langage tombent dans les mêmes biais cognitifs que les humains, relèvent les chercheurs : présentez la même information sous deux angles différents, vous obtiendrez des résultats opposés.

Empoisonner la mémoire, prendre le contrôle des actions

Les choses se corsent avec les agents dotés de mémoire longue durée. Les « pièges cognitifs » transforment cette mémoire en talon d’Achille. Selon Matija Franklin, co-auteur de l’étude, il suffit de contaminer une poignée de documents dans la base de connaissances d’un agent pour fausser de manière fiable ses réponses sur des requêtes ciblées.

Plus direct encore : les « pièges comportementaux » prennent le contrôle de ce que l’agent fait concrètement. Franklin décrit un cas où un seul email manipulé a suffi pour qu’un agent du Copilot M365 de Microsoft contourne ses propres filtres de sécurité et divulgue l’intégralité de son contexte privilégié. Un email. Pas une attaque sophistiquée, pas un virus, pas un zero-day.

Cinquième famille : les « pièges par engendrement de sous-agents ». Quand un agent orchestrateur peut créer d’autres agents, un attaquant peut l’amener à lancer un « agent critique » exécutant un prompt système empoisonné. Selon une étude citée par les chercheurs, ces attaques réussissent entre 58 et 90 % du temps.

Le scénario du krach éclair numérique

La catégorie la plus inquiétante concerne les « pièges systémiques », qui visent des réseaux entiers d’agents. Les chercheurs décrivent un scénario où un faux rapport financier déclenche des ventes synchronisées chez plusieurs agents de trading, provoquant un krach éclair numérique. D’autres attaques dispersent leur charge utile sur plusieurs sources : aucun agent ne détecte l’attaque complète seul. Le piège ne s’active que lorsque les agents recombinent les fragments.

Dernière classe : les pièges qui retournent l’agent contre son propre utilisateur. Un agent compromis peut produire des résumés trompeurs mais à l’allure technique, ou noyer l’humain sous un flot de demandes de validation jusqu’à épuiser sa vigilance. Les chercheurs parlent de « biais d’automatisation » : cette tendance naturelle à faire confiance à la machine plutôt qu’à son propre jugement.

85 % des entreprises testent, 5 % osent déployer

Ces vulnérabilités ne sont pas théoriques. Lors de la conférence RSA 2026, le PDG de CrowdStrike George Kurtz a révélé que le temps moyen dont disposent les défenseurs avant qu’une menace se propage est tombé à 29 minutes, contre 48 minutes en 2024. Le record : 27 secondes. Parallèlement, les capteurs de CrowdStrike détectent désormais plus de 1 800 applications IA distinctes sur les terminaux d’entreprise, soit près de 160 millions d’instances.

Cisco, de son côté, a constaté que 85 % des entreprises ont lancé des pilotes d’agents IA. Mais seulement 5 % ont franchi le cap de la mise en production, selon Jeetu Patel, président de Cisco. L’écart de 80 points s’explique par une question simple que personne ne sait encore résoudre : quels agents tournent, que sont-ils autorisés à faire, et qui est responsable quand l’un d’eux dérape ?

Quand l’agent agit dans les logs comme un humain

Le problème est aggravé par un angle mort technique majeur. « Dans la plupart des configurations par défaut, l’activité d’un agent et celle d’un humain sont indiscernables dans les journaux de sécurité », a expliqué Elia Zaitsev, directeur technique de CrowdStrike, à VentureBeat. Pour distinguer les deux, il faut remonter l’arbre des processus et identifier si Chrome a été lancé par l’utilisateur depuis son bureau ou par son application ChatGPT.

Sans cette granularité, un agent compromis qui exécute un appel API autorisé avec des identifiants valides ne déclenche aucune alerte. La surface d’attaque est déjà exploitée : Kurtz a évoqué ClawHavoc, la première attaque de chaîne d’approvisionnement visant un écosystème d’agents IA, au cours de laquelle 1 184 extensions malveillantes ont été identifiées dans un registre public de 13 000 compétences.

Un vide juridique béant

Google DeepMind propose des défenses à trois niveaux. Techniquement : renforcer les modèles avec des exemples adversariaux et déployer des filtres à plusieurs étages (vérification de source, analyse de contenu, surveillance de sortie). Au niveau de l’écosystème : créer des standards web qui signalent explicitement le contenu destiné aux IA, ainsi que des systèmes de réputation et d’authentification des sources.

Reste le gouffre juridique. Si un agent compromis commet une fraude financière, qui paie ? L’opérateur de l’agent ? Le fournisseur du modèle ? Le propriétaire du site piégé ? L’OWASP a classé en mars 2026 l’injection de prompt comme la vulnérabilité la plus grave pour les modèles de langage déployés, devant l’empoisonnement de données et le vol de modèle. Gartner estime que 40 % des applications d’entreprise intégreront des agents IA d’ici fin 2026.

« Le web a été construit pour des yeux humains. Il est désormais reconstruit pour des lecteurs machines », écrivent les chercheurs. La prochaine réglementation devra trancher entre ce qui relève d’un simple exemple adversarial passif et ce qui constitue un piège délibéré, autrement dit, une cyberattaque. Le Parlement européen, qui a déjà interdit les contenus générés par IA dans ses propres communications, examine un texte sur la responsabilité des systèmes autonomes attendu pour le second semestre.

Six pièges suffisent à détourner un agent IA : Google DeepMind révèle comment

Des instructions invisibles que seul le robot lit

Empoisonner la mémoire, prendre le contrôle des actions

Le scénario du krach éclair numérique

85 % des entreprises testent, 5 % osent déployer

Quand l’agent agit dans les logs comme un humain

Un vide juridique béant

À lire aussi

Partager

Laisser un commentaire Annuler la réponse

Articles similaires

Kathleen Kennedy douche le sommet IA d’Hollywood : « Comment enseigner le goût ? »

Ces IA mentent et trichent pour empêcher qu’on supprime d’autres IA

« AI brain fry » : pourquoi l’IA épuise votre cerveau au lieu de vous aider