Seuls 41 % des radiologues repèrent une radio fabriquée par intelligence artificielle quand personne ne les prévient. C’est le résultat d’une étude internationale publiée dans la revue Radiology, menée sur 17 spécialistes de 12 centres hospitaliers répartis dans six pays. Une statistique qui ouvre la porte à des fraudes médicales et judiciaires d’un genre nouveau.

Des os trop lisses, des colonnes trop droites

Les chercheurs de l’Icahn School of Medicine at Mount Sinai, à New York, ont soumis 264 images à des radiologues dont l’expérience varie de zéro à quarante ans de carrière. La moitié des clichés provenaient de vrais patients. L’autre moitié avait été générée par ChatGPT ou par RoentGen, un modèle de Stanford spécialisé en imagerie thoracique.

Premier constat : quand les médecins ne savaient pas que des faux se cachaient dans le lot, 59 % d’entre eux n’ont rien remarqué d’anormal. Même prévenus que des images synthétiques étaient mélangées aux vraies, leur taux de détection plafonnait à 75 % en moyenne. Certains participants sont tombés à 50 %, soit le score du pile ou face.

Les indices existent pourtant. Les radios fabriquées par IA présentent des os anormalement lisses, des colonnes vertébrales trop rectilignes, des fractures aux contours trop nets. Mais ces détails passent inaperçus dans le flux quotidien d’un service de radiologie, où un praticien examine des dizaines de clichés par heure.

Quarante ans de métier ne changent rien

Le résultat le plus troublant de l’étude porte sur l’expérience. « Il n’y avait aucune différence selon l’ancienneté des radiologues », explique le docteur Mickael Tordjman, chercheur post-doctoral à Mount Sinai et premier auteur de l’étude. Les internes se sont montrés aussi performants (ou aussi vulnérables) que les chefs de service chevronnés. Seule nuance : les spécialistes en imagerie ostéo-articulaire ont fait légèrement mieux que leurs collègues, probablement parce qu’ils repèrent plus vite les anomalies osseuses.

L’équipe a aussi testé les modèles d’IA eux-mêmes. GPT-4o, le moteur qui avait fabriqué une partie des images, s’est avéré incapable de détecter toutes ses propres créations. Gemini de Google et LLaMA de Meta ont fait encore moins bien, avec des précisions oscillant entre 57 % et 85 %. L’IA sait créer de fausses radios, mais elle ne sait pas les reconnaître.

Fausses fractures, vrais procès

Ce n’est pas qu’un problème académique. Elisabeth Bik, microbiologiste et spécialiste de l’intégrité des images scientifiques, résume les enjeux : « Cela pose des questions non seulement pour l’intégrité de la recherche, mais aussi pour les flux cliniques, les demandes d’assurance et les contextes juridiques où les images médicales servent de preuve. »

Le scénario le plus redouté : un plaignant qui fabrique une radio montrant une fracture inexistante pour obtenir une indemnisation. L’image serait suffisamment réaliste pour passer l’examen d’un expert judiciaire. En sens inverse, un assureur pourrait contester la validité d’un cliché authentique en invoquant le doute sur son origine.

L’autre risque est hospitalier. Un pirate qui accéderait au réseau informatique d’un hôpital pourrait injecter des images synthétiques dans les dossiers patients. Imaginez un scanner thoracique modifié qui affiche une tumeur là où il n’y en a pas, ou qui efface un nodule réel. « Cela saperait la fiabilité fondamentale du dossier médical numérique », prévient Mickael Tordjman.

L’ECRI classe le diagnostic par IA en risque numéro un

L’étude tombe dans un contexte déjà tendu. L’ECRI, organisme américain de référence en sécurité des patients, a placé les risques liés au diagnostic par IA en tête de son classement annuel pour 2026. L’organisme pointe des performances « inconsistantes » des outils de diagnostic automatisé et souligne que les cadres de gouvernance actuels ne sont pas équipés pour gérer ces risques systémiques.

Aux Etats-Unis, la FDA a approuvé plus de 900 dispositifs médicaux intégrant de l’IA, dont une majorité en radiologie. En Europe, le règlement sur l’IA (AI Act) classe les logiciels de diagnostic médical parmi les systèmes « à haut risque », mais les audits de conformité ne débuteront qu’en 2027 pour la plupart des fabricants.

Des chercheurs de l’université de Californie à San Francisco ont aussi montré, dans une étude publiée fin 2025, que les outils d’IA médicale présentaient des biais importants : certaines populations (femmes, minorités ethniques) recevaient des recommandations de soins moins adaptées, augmentant le risque de mauvais diagnostics.

Une ligne de défense encore rudimentaire

Pour l’instant, les solutions restent artisanales. L’étude de Mount Sinai propose un module de formation pour aider les radiologues à repérer les « tells » des images synthétiques : textures trop uniformes, absence de grain naturel, vaisseaux sanguins anormalement réguliers. Mais ces indices pourraient disparaître avec les prochaines générations de modèles.

D’autres pistes émergent. Le tatouage numérique (watermarking) permettrait de certifier l’origine d’une image dès sa capture par l’appareil de radiologie. Le standard C2PA, déjà utilisé en photojournalisme, pourrait être adapté à l’imagerie médicale. Encore faudrait-il que les fabricants de scanners et d’IRM intègrent cette technologie, ce qui prendra des années.

En attendant, la revue Radiology elle-même envisage de demander aux auteurs de déclarer si leurs images ont été générées ou modifiées par IA, comme le font déjà Nature et Science pour les textes. Une première ligne de défense qui repose sur la bonne foi des chercheurs.

La prochaine étape de l’équipe de Mount Sinai sera de tester la détection sur des IRM et des scanners 3D, des images bien plus complexes que de simples radios. Si les résultats confirment ceux de cette étude, les hôpitaux devront repenser toute leur chaîne de confiance numérique, de l’acquisition de l’image à son archivage.