En mars 2024, un avocat new-yorkais a déposé un mémoire juridique truffé de six arrêts de justice. Aucun n’existait. ChatGPT les avait inventés de toutes pièces, avec des numéros de dossier, des noms de juges et des dates crédibles. L’avocat a été sanctionné, mais le vrai coupable est un défaut structurel que les chercheurs appellent « hallucination ».
Prédire le mot suivant, pas dire la vérité
Pour comprendre pourquoi une IA fabrique de fausses informations avec une assurance déconcertante, il faut repartir de ce qu’elle fait réellement. Un modèle de langage comme ChatGPT, Gemini ou Claude ne « sait » rien. Il prédit le mot le plus probable après ceux qui précèdent. Si vous tapez « La capitale de la France est », le modèle calcule que « Paris » a la probabilité la plus élevée. Jusque-là, ça fonctionne.
Le problème surgit quand la bonne réponse n’est pas la plus statistiquement probable. Si vous demandez une référence juridique précise, le modèle ne cherche pas dans une base de données. Il génère une séquence de mots qui ressemble à une référence juridique, parce qu’il en a lu des milliers pendant son entraînement. Le résultat a la forme parfaite d’une vraie citation, les bons mots aux bons endroits, mais le contenu est fabriqué.
Les chercheurs Lei Huang et son équipe, dans une étude publiée dans ACM Transactions on Information Systems, définissent l’hallucination comme « un contenu généré qui est plausible en apparence mais factuellement incorrect ». Ils distinguent deux types. L’hallucination « intrinsèque » : le modèle contredit les informations qu’on lui a fournies dans la conversation. L’hallucination « extrinsèque » : il invente un fait qu’il est impossible de vérifier à partir de ses données d’entraînement.
Plus le modèle est fluide, plus il ment bien
C’est le paradoxe central de l’IA générative. Les mêmes mécanismes qui rendent un chatbot éloquent le rendent aussi dangereux. Un modèle entraîné sur des milliards de textes apprend à produire des phrases fluides, structurées, convaincantes. Il apprend surtout à ne jamais dire « je ne sais pas », parce que cette réponse apparaît rarement dans les textes d’entraînement.
Le processus de « renforcement par feedback humain » (RLHF), utilisé pour affiner les chatbots après leur entraînement initial, aggrave parfois le problème. Des évaluateurs humains notent les réponses du modèle. Les réponses longues, détaillées et formulées avec assurance obtiennent de meilleures notes que les réponses courtes ou hésitantes. Le modèle apprend qu’une réponse confiante est récompensée, même quand il serait plus honnête de répondre « je n’ai pas cette information ».
Yue Zhang et ses co-auteurs, dans une synthèse publiée sur arXiv et régulièrement mise à jour, pointent un facteur supplémentaire : la « dégénérescence » des textes longs. Plus la réponse s’allonge, plus le modèle s’éloigne de données fiables et comble les vides par extrapolation. Une réponse de trois lignes hallucine moins qu’un texte de trois pages.
Quand les hallucinations passent entre les mailles du filet
Le danger réel ne vient pas des erreurs grossières. Si ChatGPT vous dit que Paris est en Allemagne, vous corrigez immédiatement. Les hallucinations les plus pernicieuses sont celles qui contiennent 90 % de vrai et 10 % d’inventé, assez vraisemblable pour qu’un lecteur non-expert ne remarque rien.
Aux États-Unis, une enquête du Brennan Center for Justice a révélé en 2024 que 60 % des juges des cours d’État utilisent des outils d’IA générative, principalement pour rédiger des synthèses et préparer des audiences. Le problème : une majorité n’applique aucun protocole de vérification systématique des résultats. Dans le monde académique, des chercheurs ont détecté plus de 100 citations totalement inventées dans des articles soumis à NeurIPS, l’une des conférences les plus prestigieuses en apprentissage automatique.
Le secteur médical est exposé lui aussi. Des études montrent que les chatbots produisent des recommandations de santé factuellement incorrectes dans 10 à 30 % des cas selon la spécialité et le modèle utilisé, d’après les benchmarks compilés par Huang et al. dans leur méta-analyse. Une erreur de 15 % sur un résumé de film, c’est anodin. Le même taux sur un diagnostic médical ou un avis juridique peut avoir des conséquences sérieuses.
Les pistes pour réduire le problème
Éliminer totalement les hallucinations n’est pas possible avec l’architecture actuelle des modèles de langage. Le mécanisme même qui fait leur force, la prédiction probabiliste, empêche de garantir l’exactitude factuelle. Mais plusieurs approches réduisent le risque.
La plus efficace s’appelle RAG, pour Retrieval-Augmented Generation (génération augmentée par recherche). Au lieu de répondre uniquement à partir de sa mémoire interne, le modèle va d’abord chercher des documents pertinents dans une base de données, puis rédige sa réponse en s’appuyant sur ces sources. Google utilise cette technique dans ses résumés IA intégrés à la recherche. Ça réduit les hallucinations sans les supprimer : le modèle peut encore mal interpréter un document source ou mélanger des informations.
La « chaîne de pensée » (chain-of-thought) est une autre piste. On demande au modèle de détailler son raisonnement étape par étape avant de conclure. Les recherches montrent que cette approche diminue les erreurs factuelles sur les problèmes logiques et mathématiques, même si l’effet est moins net sur les questions de culture générale.
Certains modèles récents, comme les versions o1 et o3 d’OpenAI ou Claude avec le « thinking étendu » d’Anthropic, intègrent un processus de vérification interne : le modèle génère plusieurs brouillons et évalue leur cohérence avant de livrer une réponse finale. C’est plus lent et plus coûteux en calcul, mais les benchmarks indiquent une baisse mesurable des hallucinations.
Ce que vous pouvez faire concrètement
En attendant que la technologie progresse, la responsabilité retombe sur l’utilisateur. Quelques réflexes simples limitent les risques. Première règle : ne jamais faire confiance à un chatbot sur un fait vérifiable sans le recouper avec une source indépendante. Si ChatGPT vous cite une étude, cherchez-la vous-même.
Deuxième réflexe : les hallucinations sont plus fréquentes sur les sujets de niche. Plus le domaine est pointu (droit, médecine, histoire locale), plus le modèle risque de combler ses lacunes par de l’invention. Sur les sujets courants et bien documentés, le taux d’erreur baisse considérablement.
Troisième point : la formulation compte. Demander « quelles sont les principales causes de X, avec les sources » pousse le modèle à se référencer. Poser une question ouverte (« parle-moi de X ») lui donne plus de latitude pour extrapoler.
L’Union européenne a commencé à légiférer. L’AI Act, entré en application en 2025, impose aux fournisseurs de systèmes d’IA à haut risque d’évaluer et de documenter les taux d’hallucination. OpenAI, Google et Anthropic publient désormais des « model cards » détaillant les performances de leurs modèles sur des benchmarks de fiabilité factuelle. C’est un début. Mais tant que l’architecture fondamentale des LLM repose sur la prédiction statistique du mot suivant, le risque d’hallucination restera inscrit dans leur ADN.