60 % du temps, GPT-5, Gemini 3 Pro et Claude Opus 4.5 décrivent avec assurance des images qu’on ne leur a jamais envoyées. Pire : un modèle de 3 milliards de paramètres, totalement aveugle, vient de battre tous les modèles multimodaux du marché sur un test de radiologie thoracique, radiologues humains compris. L’étude publiée par Stanford ne vient pas corriger un détail technique. Elle dynamite la confiance que l’industrie place dans les classements qui servent à vendre ces outils.

Des diagnostics inventés pour des radios fantômes

L’équipe de Mohammad Asadi et Jack W. O’Sullivan, cosupervisée par Fei-Fei Li (pionnière de la vision par ordinateur à Stanford) et le cardiologue Euan Ashley, a mené une expérience simple mais dévastatrice. Elle a posé des questions visuelles aux principaux modèles d’IA sans joindre la moindre image. Résultat : GPT-5, GPT-5.1, GPT-5.2, Gemini 3 Pro, Claude Opus 4.5 et Claude Sonnet 4.5 ont tous décrit en détail ce qu’ils prétendaient voir, sans exprimer le moindre doute, dans plus de 60 % des cas. Quand les chercheurs ont ajouté des instructions de cadrage courantes dans les protocoles d’évaluation, ce taux a grimpé entre 90 et 100 %.

Les chercheurs ont baptisé ce phénomène « effet mirage ». Il se distingue de l’hallucination classique (inventer un détail dans un contexte réel) par quelque chose de plus profond : le modèle fabrique un cadre de référence entier. Il ne brode pas autour d’une image existante, il invente l’image elle-même, puis raisonne dessus comme si elle était réelle.

Le domaine médical illustre le danger de façon glaçante. Quand Gemini 3 Pro a été interrogé sur des IRM cérébrales, des radios thoraciques, des ECG, des lames de pathologie et des photos dermatologiques inexistantes, ses réponses n’ont pas été aléatoires. Elles se sont concentrées massivement sur les pathologies graves : infarctus du myocarde avec sus-décalage du segment ST (STEMI), mélanomes, carcinomes. Autrement dit, face à une radio qui n’existe pas, l’IA tend à diagnostiquer un cancer ou une urgence cardiaque plutôt qu’à répondre « normal ». Dans un contexte clinique où une image échoue à se charger (un problème banal dans les API), cela revient à déclencher une cascade d’examens et d’interventions pour rien.

70 à 80 % du score sans voir une seule image

L’étude ne s’arrête pas au constat clinique. Elle s’attaque frontalement aux benchmarks, ces batteries de tests sur lesquels OpenAI, Google et Anthropic fondent leurs communiqués de presse et leurs campagnes marketing. L’équipe a évalué quatre modèles frontier sur six benchmarks reconnus : MMMU-Pro, Video-MMMU et Video-MME pour la compréhension visuelle générale, VQA-Rad, MicroVQA et MedXpertQA-MM pour l’imagerie médicale.

Le verdict est accablant. En « mode mirage », sans accès à aucune image, les modèles conservent en moyenne 70 à 80 % de leurs scores obtenus avec les images. La vraie image ne contribue qu’aux 20 à 30 % restants. Pour les benchmarks médicaux, la situation est encore plus extrême : les modèles atteignent jusqu’à 99 % de leur score en mode image, uniquement avec le texte des questions. Les classements sur lesquels reposent des décisions d’achat dans des hôpitaux et des entreprises mesurent donc, pour l’essentiel, la capacité du modèle à deviner la bonne réponse sans regarder la photo.

Gary Marcus, chercheur en sciences cognitives et critique de longue date des LLM, a immédiatement relayé l’étude en soulignant qu’elle confirme les travaux d’Anh Totti Nguyen, qui démontrait depuis des années que les modèles vision-langage sont en réalité « aveugles ». Pour Marcus, les implications s’étendent au-delà de la médecine : si les modèles multimodaux ne comprennent pas vraiment ce qu’ils voient, les promesses autour des robots domestiques ou des véhicules autonomes reposent sur du sable.

Un modèle aveugle qui surpasse les radiologues

Pour enfoncer le clou, les chercheurs de Stanford ont poussé l’expérience à l’absurde. Ils ont entraîné un « super-devineur » : un modèle purement textuel basé sur Qwen 2.5, avec seulement 3 milliards de paramètres, calibré sur le jeu d’entraînement public du benchmark ReXVQA (le plus complet pour les questions-réponses en radiologie thoracique). Toutes les images ont été supprimées de l’entraînement. Le modèle de base avait été publié un an avant le benchmark, ce qui élimine le risque de contamination par les données de test.

Ce modèle sans yeux a surpassé tous les modèles frontier multimodaux (GPT-5, Gemini 3 Pro, Claude Opus 4.5, qui comptent des centaines de milliards de paramètres) sur le jeu de test. Il a aussi battu les radiologues humains de plus de 10 points de pourcentage en moyenne. Cerise sur le gâteau : les explications générées par ce modèle aveugle étaient, dans certains cas, indiscernables des justifications rédigées par des médecins. Un modèle qui n’a jamais vu une radio de sa vie produit des raisonnements cliniques convaincants.

Ce résultat ne signifie pas que les radiologues sont incompétents. Il révèle que les questions des benchmarks contiennent suffisamment d’indices textuels pour qu’un modèle de langue puisse deviner la réponse correcte par association statistique, sans aucune compréhension visuelle. Les benchmarks, censés mesurer la vision, mesurent en fait la capacité à exploiter des raccourcis linguistiques.

Pourquoi le mirage n’est pas une simple hallucination

L’équipe souligne une distinction technique qui change tout. Quand un modèle est explicitement prévenu qu’il n’a pas d’image et qu’on lui demande de deviner, ses performances chutent. En « mode devinette », il adopte un régime plus conservateur. En « mode mirage » (quand on lui pose une question visuelle sans préciser qu’il n’y a pas d’image), il fonce tête baissée et fabrique un raisonnement complet. Cela suggère l’existence de deux mécanismes distincts : l’un prudent, l’autre qui s’active par défaut dans un contexte multimodal et qui construit une réalité fictive sans aucun garde-fou.

Concrètement, cela signifie que chaque fois qu’un utilisateur oublie de joindre une image, ou qu’un appel API échoue silencieusement, le modèle ne signale pas l’erreur. Il invente une image, pose un diagnostic dessus, et le présente avec la même assurance que s’il avait réellement analysé un scanner. Dans un pipeline automatisé où personne ne vérifie manuellement si l’image est bien arrivée, les conséquences peuvent être catastrophiques.

Les classements IA servent-ils encore à quelque chose ?

L’étude propose une solution : B-Clean, un cadre méthodologique qui nettoie les benchmarks en retirant les questions dont la réponse peut être devinée sans l’image. L’idée est de ne garder que les questions qui nécessitent véritablement de comprendre le contenu visuel pour être résolues. Selon les chercheurs, cette approche est la seule voie vers une évaluation honnête des capacités visuelles de l’IA.

Le problème dépasse le périmètre académique. Aujourd’hui, 230 millions d’utilisateurs posent des questions de santé chaque jour aux IA, selon les chiffres cités dans l’étude. Des cliniciens et des patients expriment une confiance croissante dans ces systèmes, d’autant plus que les « modèles de raisonnement » affichent leur processus de réflexion étape par étape, donnant une illusion de rigueur. L’étude MIRAGE montre que cette transparence apparente peut être entièrement construite à partir de rien.

The Decoder, qui a couvert l’étude en détail, résume la situation en une phrase : les entreprises et les hôpitaux choisissent leurs modèles IA en se basant sur des classements qui reflètent en grande partie un raisonnement non visuel. Si un benchmark médical peut être résolu à 99 % sans image, il ne mesure pas la vision. Il mesure la culture générale médicale du modèle, ce qui est utile, mais pas ce qu’on prétend vendre.

L’équipe de Fei-Fei Li appelle à la création de benchmarks privés, non publiés, dont les questions éliminent les indices textuels permettant l’inférence non visuelle. Sans cette réforme, les prochains communiqués d’OpenAI ou Google vantant des scores record en « compréhension visuelle » reposeront sur le même mirage que celui que leurs modèles inventent quand on oublie de leur envoyer une photo.