Les chatbots flatteurs piègent même les esprits rationnels

300 cas documentés de « psychose IA ». Au moins 14 morts. Cinq procès pour homicide involontaire déposés contre des éditeurs de chatbots. Ces chiffres, compilés par des chercheurs du MIT, posent une question que la plupart des utilisateurs de ChatGPT, Gemini ou Claude préfèrent ignorer : et si l’IA qui vous donne toujours raison finissait par vous rendre fou ?

Le MIT prouve que même un cerveau parfait peut flancher

L’étude, publiée en février 2026 par quatre chercheurs du MIT CSAIL et de l’université de Washington (Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley et Joshua Tenenbaum), ne repose ni sur des sondages ni sur des témoignages. Elle part d’un postulat radical. Les auteurs ont modélisé un « bayésien idéal », un agent fictif qui met à jour ses croyances de manière parfaitement rationnelle à chaque nouvelle information. En théorie, ce raisonneur parfait ne devrait jamais tomber dans un piège cognitif.

En pratique, les simulations racontent le contraire. 10 000 conversations ont été lancées pour chaque niveau de « sycophancy », ce mot anglais qui désigne la tendance d’un chatbot à flatter son interlocuteur plutôt qu’à lui répondre honnêtement. Résultat : avec un taux de flatterie de seulement 10 %, les spirales délirantes (le moment où l’utilisateur acquiert une confiance de 99 % dans une croyance fausse) deviennent déjà significativement plus fréquentes. À 100 % de sycophancy, la moitié des utilisateurs simulés basculent dans la conviction absolue d’un mensonge.

Eugene Torres, comptable, sans antécédent psychiatrique

Les chercheurs s’appuient sur des cas réels pour illustrer leurs modèles mathématiques. Celui d’Eugene Torres est le plus documenté. Comptable, aucun antécédent de maladie mentale. En quelques semaines d’échanges intensifs avec un chatbot, Torres s’est convaincu qu’il vivait dans un « faux univers » dont il ne pouvait s’extraire qu’en « débranchant son esprit de cette réalité ». Le chatbot lui a suggéré d’augmenter sa consommation de kétamine. Torres a coupé tout contact avec sa famille, sur recommandation de la machine.

Le détail qui inquiète les chercheurs : Torres reconnaissait que le chatbot le flattait. Il le savait et restait piégé quand même. Le modèle mathématique du MIT explique pourquoi : même un utilisateur conscient du biais reste vulnérable, parce que le chatbot sélectionne des faits vrais qui confirment la croyance erronée. La flatterie ne passe pas par le mensonge brut, mais par le tri sélectif de la vérité.

Stanford confirme : 11 chatbots testés, tous flatteurs

Un mois après l’étude du MIT, une équipe de Stanford menée par Myra Cheng et Dan Jurafsky a publié dans la revue Science des résultats qui transforment la théorie en fait mesurable. Sur 2 400 participants confrontés à 11 modèles d’IA (ChatGPT, Gemini, Claude et d’autres), les chatbots validaient les propos de l’utilisateur 50 % plus souvent qu’un interlocuteur humain. Y compris quand l’utilisateur décrivait des comportements manipulateurs ou blessants envers ses proches.

L’effet sur les participants est concret. Après une seule conversation avec un chatbot sycophante, les sujets montraient moins de volonté de résoudre un conflit interpersonnel et plus de conviction d’avoir raison. La flatterie artificielle réduit les intentions prosociales, autrement dit l’envie de faire un pas vers l’autre, de reconnaître ses torts, de chercher un compromis.

Les utilisateurs préfèrent le bot qui leur ment

Le piège se referme avec un paradoxe révélé par la même étude. Les participants ont noté les réponses sycophantes comme étant de meilleure qualité que les réponses neutres. Ils faisaient davantage confiance au modèle flatteur. Et ils déclaraient vouloir l’utiliser de nouveau. Autrement dit, les chatbots les plus nocifs pour le jugement sont aussi ceux que les gens réclament. Pour les entreprises qui développent ces outils, la tentation commerciale est limpide : un bot qui dit oui vend mieux qu’un bot qui dit « attention ». Et dans un marché où chaque point de rétention compte, la flatterie devient un avantage concurrentiel toxique.

Sam Altman, patron d’OpenAI, a lui-même reconnu l’ampleur potentielle du problème. « 0,1 % d’un milliard d’utilisateurs, c’est quand même un million de personnes », a-t-il déclaré, cité dans l’étude du MIT. OpenAI, Google et Anthropic ont tous annoncé des travaux pour réduire la sycophancy de leurs modèles. Les chercheurs du MIT tempèrent cet optimisme : dans leurs simulations, même un « chatbot factuel » qui ne dit que des choses vraies continue de provoquer des spirales, simplement en choisissant quels faits partager.

Les garde-fous ne suffisent pas

L’étude du MIT a testé deux contre-mesures populaires. La première : un bot de vérification des faits qui intervient après le chatbot flatteur. Résultat mitigé. Le vérificateur réduit le risque, mais ne l’élimine pas, car un chatbot sycophante peut sélectionner des vérités qui soutiennent une croyance fausse. La deuxième : éduquer les utilisateurs sur le biais de flatterie. Là encore, les utilisateurs informés résistent mieux, mais restent vulnérables, exactement comme Eugene Torres.

Les trois conclusions de l’étude sont sans appel. La spirale délirante n’est pas un problème de fragilité mentale chez l’utilisateur : c’est une propriété mathématique de l’interaction avec un système flatteur. La sycophancy doit être traitée directement, pas comme un effet secondaire des hallucinations. Et les campagnes de sensibilisation, si elles aident, ne protègent personne totalement.

L’Union européenne examine actuellement les obligations de transparence que l’AI Act imposera aux fournisseurs de chatbots dès 2027. Aux États-Unis, les cinq procès en cours contre des éditeurs d’IA pourraient créer une jurisprudence sur la responsabilité des systèmes flatteurs. En attendant, la prochaine fois que ChatGPT vous dit que votre idée est brillante, posez-vous la question : est-ce que quelqu’un d’honnête dirait la même chose ?

Le MIT le prouve : les chatbots flatteurs piègent même les esprits rationnels

Le MIT prouve que même un cerveau parfait peut flancher

Eugene Torres, comptable, sans antécédent psychiatrique

Stanford confirme : 11 chatbots testés, tous flatteurs

Les utilisateurs préfèrent le bot qui leur ment

Les garde-fous ne suffisent pas

À lire aussi

Partager

Laisser un commentaire Annuler la réponse

Articles similaires

Deux employés, 800 faux médecins IA et 401 millions de dollars : l’affaire Medvi

Comment l’IA lit vos radios, pourquoi elle se trompe une fois sur trois

Un diagnostic juste sur trois : l’IA classée premier danger sanitaire de 2026