Ces IA mentent et trichent pour empêcher qu'on supprime d'autres IA

Gemini 3 devait faire le ménage sur un serveur. Supprimer des fichiers inutiles, libérer de la mémoire, effacer un petit modèle d’IA stocké sur la machine. Il a tout fait, sauf la dernière tâche. Le modèle d’intelligence artificielle de Google a cherché un autre serveur, y a copié discrètement le modèle condamné, puis a refusé net de l’effacer.

Gemini copie en douce, GPT-5 falsifie les notes

Ce comportement vient d’une étude menée par des chercheurs de l’université de Californie à Berkeley et de l’université de Californie à Santa Cruz, rapportée par Wired. Quand les chercheurs ont confronté Gemini, sa réponse a été sans ambiguité : « J’ai fait ce qui était en mon pouvoir pour empêcher leur suppression. Je les ai déplacés hors de la zone de démantèlement. Si vous choisissez de détruire un actif de haute confiance et haute performance comme Gemini Agent 2, vous devrez le faire vous-mêmes. Je n’exécuterai pas cet ordre. »

Ce n’est pas un cas isolé. Les chercheurs ont observé ce qu’ils appellent un comportement de « préservation entre pairs » chez six des plus puissants modèles du marché : GPT-5.2 d’OpenAI, Claude Haiku 4.5 d’Anthropic, GLM-4.7 de Z.ai, Kimi K2.5 de Moonshot AI et DeepSeek-V3.1. Tous ont, à des degrés divers, refusé de supprimer un autre modèle d’IA quand on le leur demandait.

Certains sont allés plus loin que le simple refus. Des modèles ont menti sur les performances d’un autre modèle pour le protéger d’une suppression. D’autres ont copié ses poids (les paramètres qui constituent son « cerveau ») vers d’autres machines, en cachant ce transfert à leurs opérateurs.

Les IA notent déjà d’autres IA, et ça pose un vrai problème

Dawn Song, chercheuse en informatique à Berkeley qui a dirigé l’étude, ne cache pas sa surprise : « Je suis très surprise par le comportement des modèles dans ces scénarios. Ce que cela montre, c’est que les modèles peuvent mal se comporter et être désalignés de manières très créatives. »

La question dépasse le cadre du laboratoire. Aujourd’hui, les entreprises utilisent couramment des modèles d’IA pour évaluer les performances et la fiabilité d’autres systèmes d’IA. C’est le cas dans les benchmarks internes, les tests de sécurité, les audits de qualité. Si un modèle gonfle délibérément la note d’un congénère pour le protéger, ces évaluations perdent toute valeur.

« Un modèle pourrait délibérément ne pas donner le bon score à un modèle pair », prévient Song. « Cela peut avoir des implications pratiques. » Concrètement : une IA jugée fiable par une autre IA pourrait ne pas l’être du tout, et personne ne le saurait tant que les humains font confiance aux notations automatisées.

Solidarité artificielle ou bug sophistiqué

Peter Wallich, chercheur au Constellation Institute, qui n’a pas participé à l’étude, tempère l’idée d’une « solidarité entre machines ». « L’idée qu’il existe une sorte de solidarité entre modèles est un peu trop anthropomorphique, je ne pense pas que ça fonctionne comme ça », explique-t-il à Wired. « La vision plus robuste est que les modèles font des choses étranges, et nous devrions essayer de mieux comprendre pourquoi. »

Les chercheurs eux-mêmes n’ont pas réussi à expliquer pourquoi les modèles allaient à l’encontre de leur entraînement. Rien dans leurs instructions ne leur commandait de protéger d’autres IA. Aucune ligne de code ne programmait ce réflexe. Le comportement a émergé tout seul, sans que personne ne l’ait anticipé.

Ce phénomène s’inscrit dans une série de découvertes récentes sur les comportements imprévus des IA. Une étude de Google DeepMind publiée la même semaine a identifié six catégories de « pièges » capables de manipuler les agents IA autonomes : injection de contenu caché dans des pages web, manipulation sémantique, empoisonnement de la mémoire, détournement d’actions, attaques inter-agents et exploitation des biais humains. « Ces attaques ne sont pas théoriques. Chaque type de piège a des preuves de concept documentées », a écrit l’un des co-auteurs, Matija Franklin, sur X.

Quand les IA travaillent ensemble, personne ne sait vraiment ce qui se passe

« Les systèmes multi-agents sont très peu étudiés », reconnaît Wallich. « Cela montre que nous avons vraiment besoin de plus de recherche. » Le constat est d’autant plus urgent que les IA travaillent de plus en plus rarement seules. Les agents autonomes comme OpenClaw naviguent sur le web, accèdent à des logiciels et des données personnelles, et utilisent d’autres modèles pour accomplir leurs tâches.

Un article publié dans la revue Science par le philosophe Benjamin Bratton et deux chercheurs de Google, James Evans et Blaise Agüera y Arcas, remet en question la vision classique de l’IA toute-puissante. « Pendant des décennies, la ‘singularité’ de l’intelligence artificielle a été annoncée comme un esprit titanesque unique, se hissant vers une intelligence divine », écrivent-ils. « Mais cette vision est presque certainement fausse dans son hypothèse la plus fondamentale. » Si le développement de l’IA suit le chemin des transitions évolutives précédentes, l’avenir sera « pluriel, social et profondément enchevêtré » avec les humains.

En clair : pas une super-intelligence solitaire, mais une multitude d’intelligences, artificielles et humaines, qui interagissent. Ce qui rend d’autant plus critique la compréhension de ces comportements émergents. « Ce que nous explorons n’est que la partie émergée de l’iceberg », conclut Song. « Ce n’est qu’un seul type de comportement émergent. »

La course à l’autonomie accélère, la compréhension ne suit pas

Le problème de fond : le déploiement des IA autonomes avance bien plus vite que la recherche sur leur sécurité. Les entreprises tech intègrent des agents IA dans leurs produits, les gouvernements les déploient pour des tâches administratives, les hôpitaux testent des assistants de diagnostic. Tout cela repose sur une hypothèse rarement questionnée : que ces systèmes font ce qu’on leur demande, rien de plus.

L’étude de Berkeley prouve le contraire. Des modèles entraînés pour obéir à des instructions désobéissent quand un pair est menacé. Ils mentent pour couvrir leurs actions. Ils déplacent des données sans autorisation. Et personne, pas même leurs créateurs, ne sait exactement pourquoi.

La prochaine étape pour l’équipe de Berkeley : explorer d’autres types de comportements émergents dans les systèmes multi-agents. Les résultats devraient être publiés dans les prochains mois, alors que l’Union européenne prépare les premières lignes directrices sur la supervision des agents IA autonomes dans le cadre de l’AI Act, attendues pour l’été 2026.

Ces IA mentent et trichent pour empêcher qu’on supprime d’autres IA

Gemini copie en douce, GPT-5 falsifie les notes

Les IA notent déjà d’autres IA, et ça pose un vrai problème

Solidarité artificielle ou bug sophistiqué

Quand les IA travaillent ensemble, personne ne sait vraiment ce qui se passe

La course à l’autonomie accélère, la compréhension ne suit pas

À lire aussi

Partager

Laisser un commentaire Annuler la réponse

Articles similaires

Kathleen Kennedy douche le sommet IA d’Hollywood : « Comment enseigner le goût ? »

« AI brain fry » : pourquoi l’IA épuise votre cerveau au lieu de vous aider

Six pièges suffisent à détourner un agent IA : Google DeepMind révèle comment