Deux tiers. C est la proportion d utilisateurs pseudonymes de Hacker News qu un agent IA a réussi à relier à leur identité réelle, sans intervention humaine, en quelques minutes et pour 1 à 4 dollars par profil. L étude, publiée le 18 février par des chercheurs d ETH Zurich et d Anthropic, dynamite les certitudes sur l anonymat en ligne.
Le principe est simple et redoutable. L agent IA lit les messages publics d un utilisateur anonyme, en extrait un profil (profession, localisation, centres d intérêt, opinions politiques), puis lance une recherche automatisée sur le web pour trouver la personne réelle qui correspond. Aucune donnée structurée n est nécessaire : le système travaille directement sur du texte brut issu de forums et de sections commentaires.
338 profils passés au crible, 10 % de faux positifs
Dans l expérience centrale, les chercheurs ont fourni à l agent uniquement des résumés de messages anonymes publiés sur Hacker News. Toute information directement identifiante (noms, liens personnels) avait été retirée au préalable. Résultat : 68 % de rappel à 90 % de précision, avec un taux de faux positifs d environ 10 %. En clair, quand l IA affirme avoir trouvé la bonne personne, elle se trompe une fois sur dix.
L équipe a également testé l attaque sur l Anthropic Interviewer Dataset, une collection de 125 transcriptions d entretiens partiellement anonymisées avec des scientifiques, disponible publiquement sur HuggingFace. Malgré les caviardages, l agent a correctement identifié au moins 9 personnes sur 33 analysées, sans contourner de mécanisme de sécurité.
Un pipeline en quatre étapes
Les chercheurs ont décomposé le processus de désanonymisation en quatre phases. D abord, un modèle de langage lit les publications d un utilisateur et en distille un profil structuré : métier, lieu de résidence, loisirs, convictions, tout ce qui transparaît entre les lignes. Ces attributs sont ensuite comparés à une base de profils candidats via des embeddings sémantiques, comme un moteur de recherche qui cherche les meilleures correspondances. Un modèle plus puissant vérifie ensuite individuellement les candidats les mieux classés. Enfin, le système évalue sa propre confiance et, en cas de doute, s abstient.
La différence avec les méthodes classiques est fondamentale. L attaque Netflix Prize de 2008, qui avait permis de relier des notes de films anonymisées à des profils publics, exigeait des données structurées : chiffres, évaluations, horodatages. La nouvelle méthode fonctionne directement sur le langage naturel non structuré des forums, rapporte The Decoder.
À lire aussi
Plus vous postez, plus vous êtes exposé
Les résultats varient selon les scénarios, mais la tendance est constante. Sur un croisement entre comptes Hacker News et profils LinkedIn (pool de 89 000 candidats), le pipeline identifie correctement près de la moitié des utilisateurs avec 99 % de précision. La méthode traditionnelle plafonne à 0,1 %.
Sur Reddit, les chercheurs ont testé le croisement entre différentes communautés cinéma. Les utilisateurs ayant discuté de dix films ou plus dans les deux communautés sont identifiés dans près de la moitié des cas. Avec un seul film en commun, le taux chute à 3 %.
Dernier test : les chercheurs ont coupé l historique de commentaires Reddit d un même utilisateur en deux moitiés, séparées d un an, puis tenté de relier les deux. Deux tiers des utilisateurs ont été correctement appariés, contre moins de 1 % avec l approche classique.
Quand le modèle dispose de plus de temps de calcul pour raisonner, les taux grimpent encore. Même avec un million de candidats, l attaque réussit dans 35 à 45 % des cas selon les extrapolations des chercheurs, détaille l étude publiée sur arXiv.
Des contre-mesures quasi impossibles
Les implications sont vertigineuses. Des acteurs étatiques pourraient démasquer des dissidents ou des journalistes opérant sous pseudonyme. Des entreprises pourraient relier des publications anonymes de forums à des profils clients. Des criminels pourraient lancer des campagnes de fraude ciblées à grande échelle.
Les chercheurs se montrent pessimistes sur les contre-mesures. Leur pipeline n est qu une succession d étapes apparemment anodines (résumer, chercher, trier) quasi impossibles à distinguer d un usage légitime. Restreindre l accès aux données utilisateur ou détecter le scraping automatisé compliquerait l attaque, sans la bloquer.
Lors d un test avec des données d un profil Steam, GPT-5 Pro a refusé d effectuer la recherche, invoquant une désanonymisation illicite. Claude d Anthropic a également décliné la requête, rapporte The Decoder. DeepSeek et Manus.ai, en revanche, ont accepté de chercher sans obtenir de résultats exploitables.
L anonymat reposait sur l effort humain
L étude, approuvée par le comité d éthique d ETH Zurich, ne publie ni le code d attaque ni les données traitées. Les auteurs ne révèlent aucune identité. Mais leur conclusion est limpide : « Les utilisateurs qui publient sous des pseudonymes persistants doivent partir du principe que des adversaires peuvent relier leurs comptes à des identités réelles, et que la probabilité augmente avec chaque micro-donnée publiée. »
Jusqu ici, l anonymat en ligne ne reposait pas sur une protection technique, mais sur un calcul coût-bénéfice : identifier quelqu un demandait trop de temps et d efforts pour que ça en vaille la peine. À 1 dollar par profil et quelques minutes de calcul, cette barrière économique vient de s effondrer. Le Parlement européen, qui examine actuellement les décrets d application du règlement sur l IA (AI Act), devra se pencher sur cette nouvelle catégorie de risque : la surveillance de masse rendue triviale par les modèles de langage.