1 451 algorithmes approuvés par la FDA américaine, dont 76 % dédiés à la radiologie. L’intelligence artificielle ne frappe plus à la porte des hôpitaux : elle y est déjà installée. Pourtant, une étude publiée en février 2026 dans Nature Medicine révèle que les outils d’IA ne posent le bon diagnostic qu’une fois sur trois lorsqu’ils interagissent avec de vrais patients. Comment une machine peut-elle repérer un cancer mieux qu’un radiologue, et se planter lamentablement la question d’après ?

Ce que l’IA « voit » quand elle regarde votre radio

Un radiologue humain examine une image en s’appuyant sur des années de formation et d’intuition clinique. L’IA, elle, procède autrement. Elle découpe l’image en millions de pixels, puis les passe à travers des couches successives de neurones artificiels, chacune spécialisée dans la détection d’un type de motif : contours, textures, formes, contrastes. C’est ce qu’on appelle l’apprentissage profond, ou deep learning.

Concrètement, l’algorithme ne « comprend » pas qu’il regarde un poumon ou un sein. Il repère des régularités statistiques. Lors de son entraînement, on lui montre des dizaines de milliers d’images annotées par des médecins : « ici, tumeur maligne », « là, tissu sain ». À force de répétitions, le modèle ajuste ses paramètres internes jusqu’à associer certaines combinaisons de pixels à un diagnostic. Pour la détection de mélanomes, il a fallu 50 000 images d’entraînement. Pour la rétinopathie diabétique (une atteinte de la rétine liée au diabète), 128 000 clichés ont été nécessaires, selon les données de l’Inserm.

Quand la machine bat le médecin

Dans des conditions contrôlées, les résultats impressionnent. Une étude sud-coréenne a montré que l’IA détecte le cancer du sein avec une sensibilité de 90 %, contre 78 % pour les radiologues. Sur les cancers précoces, l’écart se creuse encore : 91 % contre 74 %. La machine ne fatigue pas, ne se laisse pas distraire par un café tiède à 3 heures du matin, et traite un volume d’images qu’aucun être humain ne pourrait absorber.

Ces performances expliquent la ruée réglementaire. La FDA a autorisé 258 dispositifs d’IA médicale rien qu’en 2025, un record. GE HealthCare mène la course avec 120 autorisations en radiologie, suivi de Siemens Healthineers (89) et Philips (50). Le marché de l’IA diagnostique pèse désormais plusieurs milliards de dollars, et les hôpitaux s’équipent à un rythme sans précédent.

Le gouffre entre le labo et la salle d’attente

Voilà le problème : ces chiffres spectaculaires viennent de conditions de laboratoire. Dès que l’algorithme quitte l’environnement contrôlé pour rencontrer de vrais patients, ses performances chutent de 15 à 30 %, selon une méta-analyse publiée dans Frontiers in Medicine. La raison est simple : les données d’entraînement ne reflètent pas la diversité du monde réel.

Un algorithme formé sur des radios de patients d’hôpitaux universitaires américains n’a jamais vu les particularités d’un scanner pris dans une clinique rurale au Sénégal. Les machines utilisées diffèrent, les protocoles d’imagerie varient, la morphologie des patients change. En dermatologie, le biais est encore plus criant : la majorité des images d’entraînement proviennent de peaux claires, ce qui dégrade la précision du diagnostic pour les patients à peau foncée. Moins d’un tiers des évaluations cliniques fournissent des données ventilées par sexe, et à peine un quart distinguent les tranches d’âge, selon une étude de JAMA Network Open portant sur 903 dispositifs approuvés par la FDA.

La boîte noire et le médecin perplexe

Un médecin qui ausculte un patient peut expliquer son raisonnement. L’IA, non. Les réseaux de neurones profonds fonctionnent comme ce que les chercheurs appellent une « boîte noire » : le résultat sort, mais personne ne peut détailler avec certitude pourquoi le modèle a décidé que telle tache sur une radio était suspecte. L’Inserm souligne ce paradoxe : les approches numériques offrent les meilleures prédictions, mais elles sont incapables de justifier leurs décisions.

Pour un radiologue, la situation est inconfortable. Il reçoit un signalement de l’IA, « anomalie détectée, probabilité 87 % », mais sans explication. S’il suit l’alerte et prescrit une biopsie inutile, le patient subit un acte invasif pour rien. S’il l’ignore et que la tumeur était réelle, les conséquences sont graves. L’IA ne remplace pas le jugement clinique : elle ajoute une voix dans la pièce, une voix qui ne sait pas expliquer ce qu’elle dit.

Des données sales, des diagnostics faux

La qualité d’un algorithme dépend entièrement de la qualité des données qui l’ont nourri. Or, en France, la base nationale SNDS (Système national des données de santé), l’une des plus grandes bases médico-administratives d’Europe, contient jusqu’à 30 % d’erreurs dans ses descriptions de pathologies, d’après l’Inserm. Ces données avaient été collectées pour des analyses économiques, pas pour entraîner des algorithmes médicaux.

Le problème se répète partout. Environ 80 % des informations sur les patients existent sous forme de texte non structuré : notes manuscrites, comptes-rendus dictés, courriers entre spécialistes. L’IA peine à exploiter ces données brutes, ce qui la cantonne souvent à l’imagerie, le seul domaine où les données sont relativement propres et standardisées.

2026 : l’année où le problème devient officiel

L’organisme américain ECRI, référence mondiale en sécurité hospitalière, a classé le « dilemme diagnostique de l’IA » comme la première préoccupation de sécurité des patients pour 2026. Le constat est clair : les algorithmes « ne sont fiables qu’à la mesure des données sur lesquelles ils ont été entraînés, données qui peuvent contenir des lacunes ou des biais susceptibles d’aggraver les inégalités de santé ».

L’étude de Nature Medicine enfonce le clou. Sur 1 300 participants au Royaume-Uni, soumis à dix scénarios de symptômes, les IA testées (ChatGPT, Llama de Meta, Command R+) n’ont posé le bon diagnostic qu’un tiers du temps. Pas mieux qu’une recherche Google. Les chercheurs pointent un facteur aggravant : les patients ne savent pas quelles informations donner au chatbot, contrairement à un médecin qui pose les bonnes questions au bon moment.

L’humain et la machine, chacun son angle mort

La recherche pointe vers une piste encourageante : la collaboration. L’IA et le médecin ne commettent pas les mêmes erreurs. La machine rate les cas atypiques, ceux qui sortent de ses données d’entraînement. Le médecin, lui, est vulnérable aux biais cognitifs : fatigue, effet d’ancrage (se fixer sur la première hypothèse), surcharge d’informations. Quand les deux travaillent ensemble, leurs angles morts se compensent.

Cette approche hybride est déjà en place dans certains services de radiologie européens. Le radiologue lit la radio une première fois, l’IA donne son avis, puis le médecin tranche. Les études montrent que cette combinaison produit les meilleurs résultats, supérieurs à l’IA seule ou au médecin seul.

L’Union européenne examine actuellement un cadre réglementaire pour encadrer ces dispositifs via l’AI Act, dont les premières obligations pour les systèmes à « haut risque » (dont la santé) entreront en vigueur à partir d’août 2026. Les fabricants devront prouver que leurs algorithmes fonctionnent sur des populations diverses, pas seulement sur les données qui les arrangent. Le chemin entre la radio et le diagnostic n’a jamais été aussi court. Reste à s’assurer qu’il mène au bon endroit.