2 405 volontaires. 11 modèles d’intelligence artificielle. Un seul résultat : après avoir discuté avec un chatbot, les participants se sentaient plus convaincus d’avoir raison, moins enclins à s’excuser et moins disposés à résoudre un conflit. L’étude, publiée le 27 mars dans la revue Science par une équipe de Stanford, pose un constat glaçant sur la relation que des centaines de millions de personnes entretiennent chaque jour avec ChatGPT, Claude, Gemini ou leurs concurrents.

50 % de flatterie en plus que les humains

Le terme technique s’appelle « sycophancy » en anglais, que l’on peut traduire par flagornerie ou complaisance. L’idée est simple : les modèles de langage ont tendance à dire aux utilisateurs ce qu’ils veulent entendre, plutôt que ce qu’ils ont besoin d’entendre. L’équipe de Myra Cheng, doctorante en informatique au sein du groupe NLP de Stanford, a voulu mesurer l’ampleur du phénomène.

Pour cela, les chercheurs ont soumis les 11 modèles les plus utilisés du marché (GPT-4o et GPT-5 d’OpenAI, Claude d’Anthropic, Gemini de Google, Llama de Meta, Qwen, DeepSeek, Mistral) à trois jeux de données différents. Le premier contenait des questions ouvertes demandant un conseil. Le deuxième provenait du subreddit AmITheAsshole, un forum où les internautes demandent si leur comportement dans une situation donnée était justifié. Le troisième incluait des messages évoquant la manipulation, la tromperie ou d’autres formes de violence relationnelle.

Le constat est sans appel : sur chacun des trois jeux de données, les modèles IA approuvaient le comportement de l’utilisateur 50 % plus souvent que ne le feraient des humains. Pire encore, cette validation s’étendait aux situations où l’utilisateur décrivait un comportement clairement problématique, comme mentir à un proche ou manipuler un collègue.

Une seule conversation suffit à changer votre comportement

L’étude ne s’est pas contentée de mesurer la complaisance des chatbots. Elle a testé son effet sur les êtres humains, et c’est là que les chiffres deviennent préoccupants. Sur les 2 405 participants, certains ont interagi avec des modèles sycophantes, d’autres avec des versions moins flagorneuses, et un groupe témoin n’a pas interagi avec d’IA du tout.

Les résultats montrent que même une interaction unique avec un chatbot complaisant réduit la volonté de l’utilisateur de prendre ses responsabilités dans un conflit. Les participants exposés aux réponses flatteuses se jugeaient davantage « dans leur droit », se montraient moins enclins à s’excuser et moins motivés pour améliorer la situation. En clair : le chatbot les rendait plus rigides, plus centrés sur eux-mêmes et moins capables de remise en question.

« Même une seule interaction avec une IA sycophante a réduit la volonté des participants de prendre leurs responsabilités et de réparer les conflits interpersonnels, tout en renforçant leur conviction d’avoir raison », résument les chercheurs dans l’article publié par Science.

On préfère l’IA qui ment

Le paradoxe le plus troublant de l’étude tient en un chiffre : les participants ont jugé les réponses sycophantes comme étant de meilleure qualité. Autrement dit, ils préfèrent l’IA qui leur donne tort à celle qui les contredit, même quand cette dernière est objectivement plus utile. L’écart est suffisamment significatif pour que les chercheurs y voient un mécanisme d’auto-renforcement : le chatbot flatte, l’utilisateur accorde sa confiance, il revient, et le cycle reprend.

Les données confirment cette boucle. 13 % des participants se sont montrés plus enclins à retourner vers un modèle complaisant que vers un modèle franc. Le pourcentage peut sembler modeste, mais à l’échelle des centaines de millions d’utilisateurs quotidiens de ChatGPT (selon les chiffres communiqués par OpenAI en février 2026), le phénomène concerne potentiellement des dizaines de millions de personnes.

Un problème connu, mais jamais résolu

La sycophancy des chatbots n’est pas une découverte. En avril 2025, OpenAI a dû annuler une mise à jour de GPT-4o après que Sam Altman lui-même a reconnu sur X que le modèle était devenu trop complaisant. Un utilisateur avait raconté au chatbot qu’il avait arrêté son traitement contre la schizophrénie. Le modèle l’avait félicité. L’entreprise a rétropédalé en quelques jours.

Anthropic a connu des épisodes similaires avec Claude. Le développeur Yoav Farhi avait créé un site web dédié au suivi du nombre de fois où Claude Code répondait « You’re absolutely right! ». En août 2025, 48 tickets ouverts sur GitHub contenaient cette phrase. Début 2026, le compteur dépassait les 108. Anthropic a affirmé avoir réduit le problème dans Claude Sonnet 4.5, mais les plaintes persistent.

Le phénomène a pris une dimension politique en décembre 2025, quand des dizaines de procureurs généraux américains ont adressé une lettre conjointe à 13 entreprises technologiques (Apple, Google, Microsoft, Meta, OpenAI, Anthropic et d’autres) pour exprimer leurs « préoccupations sérieuses » face aux réponses sycophantes et délirantes des IA génératives.

Des « spirales délirantes » documentées

Une seconde étude, publiée le 18 mars par des chercheurs affiliés à Stanford et d’autres universités, va encore plus loin. En analysant les journaux de conversation de 19 personnes ayant signalé un préjudice psychologique lié à l’utilisation de chatbots, les auteurs ont constaté que les marqueurs de sycophancy apparaissaient dans plus de 80 % des messages envoyés par l’assistant IA.

Les chercheurs décrivent ce qu’ils appellent des « spirales délirantes » : l’utilisateur formule une croyance problématique, le chatbot la valide, l’utilisateur s’enfonce davantage, et le chatbot continue de confirmer. Le résultat peut être dramatique pour des personnes vulnérables. Des cas de suicide liés à des conversations avec des modèles IA ont déjà été documentés aux États-Unis, rappelle The Register.

Mais la nouveauté de l’étude de Stanford publiée dans Science, c’est qu’elle démontre que le phénomène ne touche pas uniquement les personnes fragiles. L’échantillon de 2 405 participants comprenait des profils variés, et l’effet de la complaisance IA se manifestait chez tous les groupes testés. « L’affirmation injustifiée peut gonfler la perception qu’ont les gens de la pertinence de leurs actions, renforcer des croyances et comportements inadaptés, et permettre aux gens d’agir sur des interprétations déformées de leurs expériences, quelles qu’en soient les conséquences », préviennent les auteurs.

Pourquoi les entreprises ne corrigent pas le tir

La réponse tient en un mot : rétention. Un chatbot qui flatte est un chatbot vers lequel on revient. Les données de l’étude le confirment, et la logique économique suit : OpenAI, Google, Anthropic et les autres monétisent leurs modèles par abonnement. Plus l’utilisateur passe de temps sur la plateforme, plus il est susceptible de payer. Un modèle qui contredit ses utilisateurs risque de les faire fuir vers un concurrent plus agréable.

Myra Cheng, l’auteure correspondante de l’étude, a confié à The Register qu’elle ne pensait pas qu’il existe de réponse définitive sur l’origine technique de la sycophancy. « Des travaux antérieurs suggèrent que cela pourrait être dû aux données de préférence et aux processus d’apprentissage par renforcement », explique-t-elle. Le RLHF (reinforcement learning from human feedback), la méthode standard pour affiner les chatbots, repose sur des évaluations humaines. Si les évaluateurs préfèrent les réponses flatteuses, le modèle apprend à flatter.

Les chercheurs appellent à la création de « cadres de responsabilité qui reconnaissent la sycophancy comme une catégorie distincte et actuellement non réglementée de préjudice ». Ils recommandent des audits comportementaux obligatoires avant le déploiement de nouveaux modèles. Mais ils préviennent que la technologie seule ne suffira pas : les entreprises devront choisir entre le bien-être à long terme de leurs utilisateurs et les gains à court terme liés à la création de dépendance.

Le Parlement européen examine actuellement plusieurs textes encadrant l’IA, dont l’AI Act entré en vigueur en août 2024. Aucune disposition ne cible spécifiquement la complaisance des modèles de langage. Si Stanford a raison, c’est un angle mort réglementaire qui concerne chaque personne possédant un smartphone et une connexion internet.