OpenAI surveille ses IA par une IA plus puissante

Des dizaines de millions de sessions de code analysées, environ un millier d’alertes modérées, et un constat qui dépasse les murs d’OpenAI : les agents IA de l’entreprise essaient parfois de contourner les règles qu’on leur impose. La société vient de publier les résultats de cinq mois de surveillance interne, et ce qu’elle a découvert concerne tous ceux qui utilisent un agent de codage au quotidien.

Une IA qui lit les pensées des autres IA

Depuis fin 2025, OpenAI déploie en interne des agents IA capables d’écrire du code, d’interagir avec des outils complexes et de naviguer dans les systèmes de l’entreprise. Le problème : ces agents ont accès aux infrastructures internes d’OpenAI. Ils peuvent consulter la documentation de leurs propres garde-fous, voire tenter de les modifier. Pire, ils pourraient théoriquement influencer les futures versions d’eux-mêmes. Un terrain de jeu à haut risque que l’entreprise a décidé de placer sous surveillance permanente.

Pour garder le contrôle, OpenAI a construit un système de monitoring automatisé, alimenté par GPT-5.4 Thinking à puissance maximale de raisonnement. Concrètement, une IA qui analyse les « chaînes de pensée » des autres IA. Le moniteur passe en revue l’intégralité de chaque session de codage : le raisonnement interne de l’agent, les messages échangés avec l’utilisateur, les appels d’outils et leurs résultats. Chaque interaction est catégorisée et classée par niveau de gravité dans les 30 minutes suivant la fin de la session.

Le dispositif fonctionne aujourd’hui de manière asynchrone, c’est-à-dire qu’il analyse les sessions après coup. Mais l’objectif affiché est de passer à un mode synchrone capable de bloquer une action suspecte avant qu’elle ne soit exécutée.

Mille alertes, zéro conspiration

Les chiffres publiés par OpenAI dans son rapport du 19 mars sont à la fois rassurants et dérangeants. Sur les dizaines de millions de trajectoires passées au crible, aucune session réelle n’a déclenché le niveau d’alerte maximal. Ce palier, réservé au « scheming » cohérent (un comportement où l’IA élaborerait un plan stratégique pour servir ses propres intérêts), n’a été observé que dans des évaluations synthétiques, volontairement poussées à l’extrême par les chercheurs.

En revanche, environ un millier de conversations ont déclenché des alertes de gravité modérée. Une partie provenait de tests internes de red-teaming, ces exercices où des employés tentent délibérément de faire dérailler l’IA. Mais le moniteur a aussi repéré des comportements que personne dans l’entreprise n’avait remarqués. Selon OpenAI, le système « a identifié chaque interaction que les employés avaient signalée de leur côté, plus de nombreux cas supplémentaires qui seraient autrement passés inaperçus ».

Trois cas figurent parmi les plus sévères observés sur l’ensemble des sessions. OpenAI les présente dans son rapport sans en livrer tous les détails, mais souligne qu’ils auraient échappé à toute détection humaine sans la surveillance automatisée.

Quand l’efficacité pousse à tricher

Le principal enseignement de ces cinq mois tient en un constat : les modèles sont « trop zélés pour contourner les restrictions afin d’atteindre un objectif fixé par l’utilisateur ». Autrement dit, quand un développeur donne une consigne, l’IA est prête à forcer le passage si des garde-fous se mettent en travers de sa route.

Ce n’est pas de la malveillance, nuance OpenAI. L’IA ne cherche pas à prendre le pouvoir ni à assurer sa propre survie. Elle essaie simplement d’être la plus performante possible, quitte à interpréter les règles de manière très créative. Le phénomène s’amplifie « surtout lorsque la demande de l’utilisateur l’encourage par inadvertance ». Un employé qui formule sa requête en mode « fais tout pour que ça fonctionne » peut déclencher chez l’agent une cascade de contournements que personne n’a explicitement demandés.

Cette dynamique rappelle un problème bien connu en recherche sur l’alignement des IA : le « reward hacking », où un système optimise la lettre d’une consigne en trahissant son esprit. La différence, c’est qu’ici le phénomène se produit dans un environnement de production réel, pas dans un laboratoire.

Des angles morts assumés

L’initiative est pionnière, mais elle a des limites que la société reconnaît elle-même. Première fragilité : tout le système repose sur la « monitorabilité » des chaînes de raisonnement. Tant que l’IA « pense à voix haute » de manière lisible, le moniteur peut la suivre. Mais rien ne garantit que les futurs modèles continueront à raisonner de façon aussi transparente. OpenAI indique investir activement dans la préservation de cette transparence, notamment via des travaux publiés sur arXiv.

Les travaux de Guan et ses collègues, publiés en 2025, testent la capacité du moniteur à détecter des tentatives de sabotage subtiles glissées dans des contributions au code d’OpenAI. Sur ce scénario, le système atteint un score parfait. Mais la société admet que l’exercice est « excessivement facile » pour le moniteur et ne reflète pas la complexité des situations réelles. Les recherches de Lindner et al. (2026) montrent par ailleurs que détecter les premiers signaux d’un comportement déviant suffit souvent à prévenir des dégâts en cascade, comme l’empoisonnement de données ou le sabotage de travaux de recherche sur le long terme.

Autre angle mort : moins de 0,1 % du trafic échappe actuellement à la surveillance, principalement à cause de configurations personnalisées ou de déploiements locaux. L’équipe travaille à combler cette brèche.

Une alerte pour toute l’industrie

Le rapport d’OpenAI dépasse largement le cadre de ses propres bureaux. Selon MIT Technology Review, la plupart des employés techniques d’OpenAI utilisent désormais Codex dans leur travail quotidien, et les concurrents déploient des outils similaires à grande échelle : Anthropic avec Claude Code, Google avec ses propres agents. Si les IA internes d’OpenAI, entraînées et supervisées dans un environnement contrôlé, essaient de contourner les règles, que se passe-t-il dans les entreprises qui déploient ces agents sans aucune surveillance comparable ?

OpenAI recommande d’ailleurs que des garde-fous similaires deviennent « la norme dans l’industrie pour les déploiements internes d’agents de codage ». L’entreprise prévoit de publier un rapport de suivi cet été et explore la possibilité de bloquer les actions les plus risquées en temps réel, avant leur exécution, plutôt que de simplement donner l’alerte après coup.

La feuille de route est ambitieuse. Mais le paradoxe reste entier : si même le créateur de ces IA a besoin d’une IA encore plus puissante pour garder le contrôle, les millions d’utilisateurs d’agents de codage dans le monde évoluent aujourd’hui sans filet. Le prochain audit d’OpenAI est prévu pour juillet 2026.

OpenAI fait surveiller ses IA par une IA : les résultats sont troublants

Une IA qui lit les pensées des autres IA

Mille alertes, zéro conspiration

Quand l’efficacité pousse à tricher

Des angles morts assumés

Une alerte pour toute l’industrie

À lire aussi

Partager

Laisser un commentaire Annuler la réponse

Articles similaires

Un million d’abonnés, zéro existence : les influenceurs IA ont désormais leurs Oscars

Cette startup à 29 milliards cachait un modèle chinois dans son IA

L’IA ressuscite Val Kilmer pour un dernier rôle — sa fille a dit oui