Plus de 5 000 personnes meurent chaque année dans des crues éclair. Trop brèves, trop localisées, ces catastrophes passent entre les mailles des capteurs météo classiques et des modèles de prévision les plus avancés. Google vient de publier une solution inattendue : faire lire cinq millions d’articles de presse à son intelligence artificielle pour cartographier les risques d’inondation dans 150 pays.

Le vrai problème : personne ne compte les crues

La température, le débit des rivières, la pression atmosphérique : des milliers de stations de mesure les enregistrent en continu à travers le monde. Les crues éclair, elles, ne laissent presque pas de traces numériques. Elles frappent en quelques heures, sur des zones souvent dépourvues du moindre capteur, puis disparaissent. Ce manque de données historiques rend leur prévision quasi impossible pour les modèles d’apprentissage profond, qui ont besoin de millions d’exemples passés pour repérer des schémas.

Pour mesurer l’ampleur du sous-comptage : la base EM-DAT, référence internationale du suivi des catastrophes naturelles gérée par l’Université catholique de Louvain, recense environ 5 750 événements d’inondation dans l’ensemble de ses archives. Un chiffre dérisoire au regard de la réalité du terrain.

Gemini lit la presse, l’IA cartographie les crues

Plutôt que de chercher des données physiques qui n’existent pas, une équipe de Google Research a pris un chemin détourné. Elle a chargé Gemini, le modèle de langage de Google, d’analyser cinq millions d’articles de presse publiés dans le monde entier. L’IA a isolé 2,6 millions de rapports d’inondations distincts, les a géolocalisés et datés pour constituer une série temporelle baptisée « Groundsource ».

L’écart entre les 5 750 événements recensés par EM-DAT et les 2,6 millions extraits de la presse donne la mesure du gouffre que ce projet tente de combler. C’est la première fois que Google utilise un modèle de langage pour constituer un jeu de données géoréférencées à partir de sources textuelles, a précisé Gila Loike, cheffe de produit chez Google Research, citée par TechCrunch. Les deux articles scientifiques et le jeu de données complet ont été publiés en libre accès sur la plateforme EarthArXiv le 10 mars.

Croiser bulletins météo et archives de presse

Groundsource seul ne prédit rien. C’est la seconde brique du projet qui transforme ce corpus journalistique en outil d’alerte. L’équipe a entraîné un réseau de neurones de type LSTM, pour « Long Short-Term Memory ». Ce type d’architecture excelle dans la détection de schémas récurrents au sein de longues séquences de données. Ici, le modèle reçoit deux entrées : les prévisions météorologiques mondiales d’un côté, la carte historique des inondations extraite de Groundsource de l’autre.

Le principe : en s’appuyant sur 2,6 millions d’épisodes passés, le réseau apprend quelles configurations atmosphériques précèdent une crue soudaine. Une fois entraîné, il calcule en temps réel la probabilité d’une inondation pour chaque zone du globe à partir des bulletins météo du jour. Ces alertes alimentent désormais Flood Hub, la plateforme de Google dédiée aux risques d’inondation, lancée en 2022 pour les crues de rivières et étendue depuis aux crues éclair urbaines dans 150 pays.

20 km² de maille, loin de la précision locale

Le système n’est pas sans limites. Sa résolution se situe autour de 20 kilomètres carrés par zone, un maillage trop large pour cibler un quartier ou une rue. Le National Weather Service américain, par comparaison, dispose de radars Doppler capables de suivre les précipitations minute par minute avec une granularité bien supérieure.

Google ne prétend pas rivaliser avec ces systèmes nationaux. Son modèle n’intègre d’ailleurs pas de données radar locales, ce qui bride sa précision en temps réel. Mais c’est précisément le point : le projet vise les régions où aucun radar, aucune station de mesure ne couvre le territoire.

Cibler les pays qui n’ont rien

L’enjeu central du projet tient dans un paradoxe récurrent : les pays les plus frappés par les crues éclair sont souvent ceux qui disposent du moins d’infrastructures d’alerte. En agrégeant des millions de témoignages journalistiques couvrant tous les continents, Groundsource rééquilibre la carte mondiale des données.

« Parce que nous agrégeons des millions de reportages, le jeu de données rééquilibre la couverture géographique, a expliqué Juliet Rothenberg, responsable du programme résilience chez Google. Il nous permet d’extrapoler vers des régions où l’information reste lacunaire. »

António José Beleza, responsable de la réponse d’urgence à la Communauté de développement de l’Afrique australe (SADC), a testé le système en conditions réelles. Le modèle a permis à son organisation de réagir plus vite face aux épisodes de crues, rapporte TechCrunch.

Marshall Moutenot, directeur général d’Upstream Tech, une entreprise spécialisée dans la prévision des débits fluviaux par apprentissage profond, salue l’approche. « La rareté des données est l’un des défis les plus difficiles en géophysique, a-t-il déclaré. C’est une approche vraiment créative pour obtenir ces données. » Moutenot a cofondé dynamical.org, un collectif qui compile des données météo prêtes à l’emploi pour les chercheurs et les startups du secteur.

La presse comme capteur de catastrophes invisibles

L’idée de convertir des sources textuelles en séries de données exploitables pourrait dépasser le cadre des inondations. Rothenberg a indiqué que l’équipe explore l’extension de cette méthode aux vagues de chaleur et aux glissements de terrain, deux phénomènes tout aussi éphémères et mal documentés à l’échelle mondiale.

Le principe sous-jacent interpelle : si un modèle de langage peut transformer des décennies d’articles en base de données structurée, d’autres domaines où les mesures physiques font défaut pourraient en bénéficier. La sécheresse, les épidémies localisées ou les déplacements de population liés au climat restent des phénomènes largement sous-documentés dans les pays du Sud.

Les données Groundsource, le modèle de prévision et les articles scientifiques sont tous disponibles en libre accès. Google précise que ses alertes sont déjà partagées avec des agences de gestion de crise à travers le monde. La prochaine saison des moussons en Asie du Sud débute dans moins de trois mois.