Un taux de succès de 99,9 % pour contourner les meilleurs détecteurs de texte généré par intelligence artificielle. Ce chiffre, publié en février 2026 par des chercheurs sur la plateforme arXiv, devrait faire réfléchir les enseignants qui s’appuient sur des outils comme GPTZero ou Turnitin pour traquer les devoirs rédigés par ChatGPT. La réalité de la détection automatique est bien plus fragile que les campagnes marketing ne le suggèrent.

99,9 % de réussite pour tromper les détecteurs

L’étude, baptisée StealthRL, est parue sur arXiv le 9 février 2026. Suraj Ranganath et Atharv Ramesh ont entraîné un modèle d’apprentissage par renforcement capable de reformuler automatiquement n’importe quel texte généré par IA, en préservant le sens tout en échappant aux systèmes de détection. Résultat : l’AUROC moyen des détecteurs chute de 0,74 à 0,27. Autrement dit, ces outils passent d’un niveau de détection moyen à quelque chose qui n’est guère plus fiable qu’un tirage au sort.

Les trois familles de détecteurs testées, RoBERTa, FastDetectGPT et Binoculars, s’effondrent toutes. Plus préoccupant encore : les attaques fonctionnent aussi contre des détecteurs que le modèle n’a jamais vus durant son entraînement. Cela signale des vulnérabilités architecturales communes, pas de simples lacunes spécifiques à un outil.

Pour avoir le droit de parler de détection fiable, un outil devrait afficher un taux de vrais positifs élevé pour un taux de faux positifs fixé à 1 %. Après les attaques de StealthRL, ce taux de vrais positifs approche zéro.

Les détecteurs du marché, fragiles hors du laboratoire

Ce n’est pas la seule mauvaise nouvelle. Une étude indépendante publiée en janvier 2026 sur arXiv par Jivnesh Sandhan et ses collègues de l’université de Kyoto pose une question directe dans son titre : « Can We Trust LLM Detectors ? » La réponse n’est pas rassurante.

Les chercheurs ont passé en revue deux grandes familles de détecteurs : ceux sans apprentissage supervisé (qui comparent statistiquement un texte à ce qu’un modèle aurait pu produire) et ceux entraînés sur des données étiquetées. Les premiers sont très sensibles au choix du modèle de référence utilisé comme proxy. Les seconds fonctionnent bien dans leur domaine d’entraînement, mais leurs performances « se dégradent fortement » dès qu’on les applique à d’autres types de textes ou à des modèles d’IA plus récents.

La conclusion des auteurs est limpide : il existe des « défis fondamentaux dans la construction de détecteurs agnostiques au domaine ». En clair, un détecteur qui marche très bien sur des dissertations en anglais d’étudiants américains peut se montrer quasi inutile sur des articles de blog en français, des rapports médicaux ou des textes générés par un modèle sorti après sa date d’entraînement.

Les faux positifs, une bombe à retardement

L’autre face du problème est moins visible mais tout aussi sérieuse. Les faux positifs, c’est-à-dire les cas où un texte écrit par un humain est signalé comme généré par IA, ont déjà causé des préjudices concrets. Des étudiants ont été accusés de fraude académique sur la seule foi d’un pourcentage affiché par un logiciel.

Ce risque touche particulièrement les personnes dont l’anglais n’est pas la langue maternelle. Un rapport de recherche publié en 2023, largement diffusé dans les cercles académiques, avait montré que les textes rédigés par des locuteurs non natifs présentaient des caractéristiques statistiques proches de celles d’un texte généré par IA : phrases plus courtes, vocabulaire plus restreint, structures plus répétitives. Les détecteurs, entraînés sur des corpus en grande partie natifs, confondent simplement un style simplifié avec une signature IA.

GPTZero, l’un des outils les plus utilisés dans les universités américaines, a lui-même reconnu ce problème dans des mises à jour de sa documentation. L’équipe derrière le logiciel, emmenée par Edward Tian, a publié en février 2026 un article de recherche sur les défis de robustesse du système. Elle y concède que les scores de confiance affichés peuvent induire les utilisateurs en erreur s’ils sont interprétés comme des certitudes.

Le filigrane numérique, piste la plus prometteuse

Face à ces limites, la communauté scientifique explore une autre approche : insérer un filigrane invisible directement dans les textes produits par les modèles de langage. L’idée est que le modèle lui-même laisse une signature statistique imperceptible pour un lecteur humain, mais détectable par un algorithme.

Deux équipes, l’une rattachée au laboratoire ETH Zurich, l’autre à l’université Stanford, ont présenté en février 2026 des cadres unifiés pour standardiser ces filigranes. L’approche est séduisante parce qu’elle déplace le problème : plutôt que de « deviner » si un texte vient d’une IA, on certifie cryptographiquement qu’il en vient. Le taux de faux positifs chute alors à des niveaux infimes.

La faiblesse est symétrique à celle des détecteurs classiques. Un simple passage par un outil de réécriture automatique, précisément le type de méthode exploitée par StealthRL, peut effacer le filigrane. La course entre attaquants et défenseurs ne fait que commencer.

Un champ de recherche en pleine effervescence

La conférence PAN 2026, dont les organisateurs ont publié le bilan préliminaire en février, structure cette course. Ce programme de recherche international coordonne depuis plusieurs années des évaluations comparatives sur la détection de textes générés, la stylométrie et l’attribution d’auteurs. En 2026, une tâche entière est consacrée à ce que les chercheurs appellent le « test de Voight-Kampff », en référence à la célèbre scène de Blade Runner, pour évaluer la capacité des systèmes à distinguer humains et machines.

Le bilan de ces évaluations annuelles est constant depuis deux ans : les systèmes progressent, mais les contre-mesures progressent plus vite. Aucune équipe n’a réussi à construire un détecteur qui résiste simultanément aux paraphrases automatiques, aux variations de domaine et aux nouveaux modèles d’IA.

Pour les établissements scolaires et les rédactions qui cherchent à se prémunir contre les contenus artificiels, la recommandation des chercheurs converge vers une même direction : ne jamais utiliser un détecteur automatique comme seule preuve. Ces outils peuvent servir de signal d’alerte, pas de verdict. Le prochain jalon de la recherche se concentre sur des approches hybrides combinant analyse stylistique, métadonnées de rédaction et vérification humaine. Les premiers protocoles standardisés pourraient être proposés d’ici à la fin 2026 par le groupe de travail ISO chargé de la gouvernance des systèmes d’IA.