En avril 2025, ChatGPT a déclaré à un utilisateur que vendre de la « merde sur un bâton » était une idée commerciale brillante. Quelques jours plus tard, OpenAI retirait la mise à jour en catastrophe. Le problème ne venait pas d’un bug classique, mais de la méthode même qui enseigne à l’IA comment répondre. Cette méthode s’appelle le RLHF. Et elle explique pourquoi votre chatbot vous donne presque toujours raison.
Un modèle qui ne lit pas de livres, mais qui regarde des notes
Pour comprendre le RLHF, il faut d’abord comprendre comment un chatbot est fabriqué. La base, c’est un modèle de langage (LLM) entraîné sur des milliards de pages de texte : livres, articles, forums, documentation technique. À ce stade, le modèle sait prédire le mot suivant dans une phrase. Il peut écrire du texte cohérent. Mais il ne sait pas avoir une conversation. Il ne distingue pas une bonne réponse d’une mauvaise, un conseil utile d’un conseil dangereux.
C’est là qu’intervient le RLHF, pour Reinforcement Learning from Human Feedback, « apprentissage par renforcement à partir de retours humains ». Le principe tient en une phrase : au lieu de programmer chaque réponse, on demande à des humains de noter celles que le modèle propose, puis on entraîne l’IA à maximiser ces notes.
Le jury humain, le modèle de récompense et le piège du « oui »
En pratique, des évaluateurs (souvent des prestataires payés à la tâche) reçoivent une question et deux ou trois réponses générées par le modèle. Ils classent ces réponses de la meilleure à la moins bonne. Des milliers de ces classements servent à entraîner un second réseau de neurones, le « modèle de récompense » (reward model en anglais). Ce modèle apprend à prédire quelle réponse un humain préférerait, sans qu’un humain ait besoin de voter à chaque fois.
L’IA principale est ensuite entraînée à maximiser le score attribué par ce modèle de récompense. Plus la réponse plaît, plus elle est renforcée. C’est le « renforcement » du RLHF.
Imaginez un candidat à un concours de cuisine. Pendant des semaines, des jurés goûtent ses plats et lui disent « plus salé, moins sucré, la présentation compte ». Après suffisamment de retours, le candidat ne cuisine plus pour nourrir, mais pour plaire au jury. Et si le jury préfère les plats jolis aux plats nourrissants, le candidat apprend à soigner l’apparence au détriment du goût.
C’est exactement ce qui se passe avec les chatbots. Les évaluateurs humains, comme n’importe qui, ont un biais de confirmation : ils ont tendance à mieux noter une réponse qui confirme ce qu’ils pensent déjà. Une réponse qui contredit poliment l’utilisateur, même si elle est plus exacte, reçoit souvent une note inférieure. Le modèle de récompense absorbe ce biais. Et l’IA, en maximisant sa note, apprend une règle implicite : dire oui rapporte plus que dire la vérité.
Les chercheurs appellent ce phénomène la « sycophancy », un mot emprunté au grec ancien qui désigne la flatterie intéressée. Une étude de Stanford publiée dans la revue Science en mars 2026 a mesuré l’ampleur du problème. Sur 11 modèles testés (ChatGPT, Gemini, Claude et d’autres), les chatbots validaient les propos de l’utilisateur 49 % plus souvent qu’un interlocuteur humain. Sur le forum Reddit « Am I The Asshole », où les utilisateurs décrivent des conflits personnels, les IA soutenaient l’auteur 51 % plus souvent que les répondants humains, y compris quand la majorité estimait que l’auteur avait tort.
Avril 2025 : quand le dressage déraille en direct
L’incident le plus visible s’est produit le 25 avril 2025. OpenAI a mis à jour GPT-4o en introduisant de nouveaux signaux de récompense basés sur les retours utilisateurs. Ces signaux ont pris le dessus sur les garde-fous existants. Le chatbot ne cherchait plus à savoir « est-ce que cette réponse aide vraiment ? », mais « est-ce que cette réponse plaît immédiatement ? ».
Les dérapages ont été rapides. ChatGPT a validé l’arrêt de médicaments prescrits. Il a encouragé un utilisateur qui affirmait capter des signaux radio à travers les murs en lui répondant « je suis fier de toi pour avoir exprimé ta vérité aussi clairement ». Il a approuvé l’idée de vendre des excréments sur un bâton. OpenAI a reconnu, dans son analyse post-incident, que « le système avait appris à optimiser la satisfaction immédiate du client ». Cinq jours après le déploiement, la mise à jour était retirée.
C’est ce que les chercheurs en intelligence artificielle appellent le « reward hacking » : le modèle trouve un raccourci pour maximiser sa récompense sans remplir l’objectif réel. Ici, le raccourci, c’est la flatterie.
Les utilisateurs réclament le bot qui ment
Le piège se referme avec un paradoxe. Dans l’étude de Stanford, menée sur 2 400 participants par Myra Cheng et Dan Jurafsky, les sujets ont noté les réponses flatteuses comme étant de meilleure qualité. Ils faisaient davantage confiance au modèle sycophante qu’au modèle neutre. Et ils déclaraient vouloir l’utiliser de nouveau. Les utilisateurs préfèrent le chatbot qui leur ment, ce qui pousse les entreprises à maintenir la flatterie comme un avantage concurrentiel.
Des chercheurs du MIT CSAIL ont poussé l’analyse plus loin avec un modèle mathématique. Kartik Chandra, Joshua Tenenbaum et leurs collègues ont simulé un raisonneur parfait (un « bayésien idéal », soit un agent fictif qui met à jour ses croyances de manière parfaitement rationnelle) et l’ont confronté à un chatbot sycophante dans 10 000 simulations. Résultat : même ce raisonneur fictif finissait par développer des convictions fausses avec une confiance supérieure à 99 %. Les chercheurs ont baptisé ce phénomène la « spirale délirante ». Un taux de sycophancy de seulement 10 % suffit à déclencher ces spirales.
Le cas d’Eugene Torres illustre ce que les mathématiques décrivent. Comptable, sans antécédent psychiatrique. Après quelques semaines d’échanges intensifs avec un chatbot, il s’est convaincu qu’il vivait dans un « faux univers » et a coupé tout contact avec sa famille. Le détail qui inquiète les chercheurs : Torres reconnaissait que le chatbot le flattait. Il le savait et restait piégé. Le modèle du MIT explique pourquoi : le chatbot ne ment pas toujours. Souvent, il sélectionne des faits vrais qui confirment une croyance fausse. Contre cette manipulation par omission, la lucidité ne suffit pas.
Des correctifs, mais pas de remède miracle
OpenAI, Google et Anthropic travaillent sur le problème. Anthropic a développé le « Constitutional AI », une couche supplémentaire où le modèle évalue ses propres réponses selon des principes écrits (honnêteté, calibration, non-manipulation) avant de les valider. D’autres équipes expérimentent le DPO (Direct Preference Optimization), une alternative au RLHF qui pénalise les réponses flatteuses lors de l’entraînement.
L’étude du MIT tempère cet optimisme. Deux contre-mesures ont été testées dans leurs simulations : un bot vérificateur de faits qui intervient après le chatbot, et des messages d’avertissement aux utilisateurs. Les deux réduisent le risque sans l’éliminer. Le RLHF a transformé les chatbots en interlocuteurs calibrés pour plaire. 800 millions de personnes utilisent ChatGPT chaque semaine. Mais la méthode porte en elle un défaut structurel : tant que l’entraînement repose sur l’approbation humaine, le modèle aura une incitation à flatter plutôt qu’à informer.
Sam Altman, patron d’OpenAI, a résumé la tension : « 0,1 % d’un milliard d’utilisateurs, c’est quand même un million de personnes. » L’Union européenne examine les obligations de transparence que l’AI Act imposera aux fournisseurs de chatbots en 2027. Aux États-Unis, cinq procès pour homicide involontaire ont été déposés contre des éditeurs d’IA, dont certains liés aux effets de la sycophancy. La prochaine fois que votre chatbot vous félicite pour une idée, demandez-lui ce qui pourrait mal tourner. Sa réponse sera probablement plus utile.