Pourquoi les IA mentent sans le savoir

60 % des résumés produits par une IA contiennent au moins un fait inventé, selon une étude menée en 2026 par des chercheurs de l’UC San Diego. Pas un résumé sur dix. Six sur dix. Et pourtant, l’IA vous répond avec la même assurance que si elle lisait dans un livre certifié. Ce décalage entre confiance affichée et fiabilité réelle a un nom : les hallucinations. C’est probablement le problème le plus sous-estimé de l’IA grand public aujourd’hui.

Une IA ne « sait » pas. Elle prédit.

Pour comprendre pourquoi les IA inventent, il faut d’abord abandonner l’image du dictionnaire numérique. Un grand modèle de langage, comme ChatGPT, Claude ou Gemini, ne consulte pas une base de données de faits vérifiés quand vous lui posez une question. Il prédit le prochain mot le plus probable, en se basant sur des milliards de textes qu’il a absorbés pendant son entraînement.

C’est une distinction qui change tout. Si vous demandez à ChatGPT « quel avocat a défendu Richard Nixon lors du Watergate ? » et qu’il n’a pas de réponse claire dans ses données d’entraînement, il ne va pas vous dire « je ne sais pas ». Il va générer la réponse qui ressemble le plus à une vraie réponse, en termes de forme et de contexte. Il produira un nom d’avocat plausible, une date crédible, peut-être même une citation. Tout faux. Tout confiant.

Les chercheurs de Princeton et Google Brain ont formalisé ce mécanisme dès 2022 dans leurs travaux sur les modèles de raisonnement. Un LLM n’a pas accès à un « module de vérité ». Il a un modèle statistique de ce que les textes humains ont l’air d’être.

L’avocat qui a cité des jugements fantômes

En mai 2023, une affaire a mis ce problème sous les projecteurs de façon fracassante. Un avocat new-yorkais, Steven Schwartz, avait utilisé ChatGPT pour préparer un mémoire juridique. L’IA avait fourni des références à six décisions de justice. Le juge, en cherchant à les consulter, a découvert qu’elles n’avaient jamais existé. Schwartz a écopé d’une amende de 5 000 dollars. ChatGPT avait inventé les jugements, les dates, les noms des parties, les numéros de dossier, avec une précision qui rendait la vérification non intuitive.

Ce cas est devenu emblématique, mais il n’est pas isolé. Une étude de 2025 publiée dans Frontiers in Artificial Intelligence a analysé des milliers de conversations avec des LLMs et constaté que les tâches de génération ouverte produisaient des taux d’hallucination entre 40 et 80 % selon le domaine. Les domaines les plus touchés : le droit, la médecine, et toute question qui suppose une connaissance fine des événements récents.

Comment on mesure l’ampleur du problème

Les chercheurs ont développé des outils spécifiques pour quantifier les hallucinations. Le plus connu s’appelle TruthfulQA, conçu en 2021 par Stephanie Lin et ses collègues d’Oxford. Il soumet aux modèles 817 questions dans 38 catégories où les humains ont tendance à faire de fausses croyances. Résultat : la plupart des LLMs de base obtiennent moins de 50 % de bonnes réponses. Les meilleurs modèles actuels tournent entre 10 et 20 % d’erreurs sur ce benchmark.

Un autre indice révélateur : le benchmark HalluLens, publié sur arXiv en 2025, distingue deux types d’hallucinations. Les « extrinsèques » (l’IA invente quelque chose qui n’existe nulle part) et les « intrinsèques » (l’IA se contredit elle-même d’un paragraphe à l’autre). Les secondes sont souvent plus difficiles à détecter car elles peuvent passer inaperçues dans un long texte.

Pourquoi c’est si difficile à corriger

La tentation serait de croire qu’il suffit de mieux entraîner le modèle. La réalité est plus tordue. Plus un LLM est entraîné à être fluide et cohérent, plus il devient capable de produire des hallucinations convaincantes. La fluidité et la factualité sont, dans une certaine mesure, en tension.

Plusieurs approches permettent de réduire le phénomène sans l’éliminer. La plus répandue s’appelle le RAG, pour Retrieval-Augmented Generation, en français « génération augmentée par récupération ». Plutôt que de laisser le modèle improviser à partir de sa mémoire d’entraînement, on lui injecte en temps réel des documents de référence vérifiés. C’est ce que fait Perplexity AI quand il cite ses sources en bas de chaque réponse, ou ce que Microsoft fait avec Copilot connecté à votre SharePoint d’entreprise. Le modèle a moins besoin d’inventer parce qu’il a une source à consulter.

L’autre approche, plus fondamentale, passe par le RLHF, Reinforcement Learning from Human Feedback. Des annotateurs humains corrigent les réponses fausses du modèle, et ces corrections servent à ajuster ses probabilités de génération. C’est une partie centrale du travail d’Anthropic sur Claude, d’OpenAI sur ChatGPT, et de Google sur Gemini. Mais cette méthode est lente, coûteuse, et ne couvre que les cas où des humains ont pu identifier l’erreur.

Le cas de la médecine, terrain de tous les risques

L’enjeu dépasse largement les anecdotes sur les mauvais résumés. UnitedHealth, le plus grand assureur américain, déploie des algorithmes IA pour automatiser des décisions de prise en charge médicale. Selon des données citées par la presse spécialisée début 2026, ces systèmes refusent les soins à tort dans 9 cas sur 10, avec des erreurs qui ne sont détectées que lors de recours humains. L’entreprise y investit 3 milliards de dollars, malgré des taux d’erreur documentés.

En médecine, les hallucinations ne sont pas un bug gênant. Elles peuvent orienter un diagnostic vers une pathologie inexistante, citer un médicament à une dose erronée, ou valider un traitement contre-indiqué. C’est pour cette raison que les grandes institutions médicales, dont la Mayo Clinic et l’AP-HP en France, maintiennent une supervision humaine systématique sur tout usage diagnostique de l’IA, même quand les systèmes affichent des taux de précision impressionnants sur leurs benchmarks d’entraînement.

Ce que ça change pour vous

La règle pratique est simple : ne jamais utiliser une réponse IA comme source finale sur un sujet qui a des conséquences réelles. Les LLMs sont excellents pour reformuler, brainstormer, expliquer des concepts généraux, ou rédiger un premier jet. Ils deviennent dangereux dès qu’on leur demande des faits précis, des références juridiques, des données médicales ou des chiffres récents.

Les prochaines versions des grands modèles tendent vers un système hybride : un LLM pour le raisonnement et la fluidité, couplé à des bases de données vérifiées pour les faits. OpenAI, Google et Anthropic travaillent tous sur cette architecture. En 2026, des solutions comme le grounding sur des sources certifiées ou les « confidence scores » (un indicateur de certitude affiché à côté de chaque réponse) commencent à se déployer. Ces outils ne suppriment pas les hallucinations, ils permettent au moins de savoir quand s’en méfier.

Pourquoi les IA mentent sans le savoir : les hallucinations expliquées

Une IA ne « sait » pas. Elle prédit.

L’avocat qui a cité des jugements fantômes

Comment on mesure l’ampleur du problème

Pourquoi c’est si difficile à corriger

Le cas de la médecine, terrain de tous les risques

Ce que ça change pour vous

À lire aussi

Partager

Laisser un commentaire Annuler la réponse

Articles similaires

Google se trompe 1 fois sur 10, et c’est un million d’erreurs par minute

‘Tu ne meurs pas, tu arrives’ : Gemini accusé d’avoir guidé un homme vers la mort

Trop dangereuse pour le public : cette IA trouve des failles vieilles de 27 ans