4 teraoctets. L’équivalent de 1 000 heures de vidéo ou d’un millier d’encyclopédies. C’est le volume de données que des pirates affirment avoir dérobé à Mercor, la startup de la Silicon Valley qui fournit les données d’entraînement de ChatGPT, Claude et des modèles de Meta. Le butin contiendrait le code source de l’entreprise, des bases de données internes, des vidéos d’entretien et des documents d’identité de travailleurs.

La startup à 10 milliards que personne ne connaît

Mercor est l’un des rouages les plus discrets et les plus sensibles de l’industrie de l’intelligence artificielle. Fondée en 2023, valorisée 10 milliards de dollars après une levée de 350 millions menée par Felicis Ventures en octobre 2025, la startup recrute des milliers d’experts (médecins, avocats, scientifiques, traducteurs) dans le monde entier pour produire les jeux de données sur mesure qui servent à perfectionner les modèles d’IA d’OpenAI, d’Anthropic et de Meta. L’entreprise revendique plus de 2 millions de dollars de paiements quotidiens à ses contractuels.

Problème : ces données sont considérées comme l’un des secrets industriels les mieux gardés du secteur. Elles révèlent comment chaque laboratoire entraîne ses modèles, quelles compétences il privilégie, quels biais il corrige. Autrement dit, la recette de fabrication de l’IA américaine.

Un piège caché dans un outil open source

L’attaque n’a pas visé directement Mercor. Elle est passée par LiteLLM, une bibliothèque logicielle open source utilisée par des milliers de développeurs pour connecter leurs applications aux services d’IA. D’après le rapport de la firme de cybersécurité Snyk, LiteLLM est téléchargé des millions de fois par jour. Un groupe de pirates baptisé TeamPCP a réussi à injecter du code malveillant dans deux mises à jour du logiciel. Ce code récoltait discrètement les identifiants d’accès des utilisateurs avant d’être repéré et retiré en quelques heures.

Mais le mal était fait. Mercor, qui utilisait LiteLLM dans son infrastructure, a confirmé le 31 mars avoir été touché par cette attaque dite « de chaîne d’approvisionnement ». L’entreprise précise être « l’une des milliers de sociétés » concernées, selon sa porte-parole Heidi Hagberg, et avoir fait appel à des experts judiciaires tiers pour mener l’enquête.

Meta coupe les ponts, OpenAI surveille

La réaction la plus brutale vient de Meta. Selon WIRED, le groupe de Mark Zuckerberg a suspendu tous ses contrats avec Mercor pour une durée indéterminée. Les contractuels affectés aux projets Meta ne peuvent plus enregistrer d’heures de travail et se retrouvent potentiellement sans revenus, le temps que la situation se clarifie. L’un de ces projets, nom de code « Chordus », visait à apprendre aux modèles de Meta à croiser plusieurs sources web pour vérifier leurs réponses aux utilisateurs.

OpenAI n’a pas suspendu ses projets en cours, mais confirme mener une enquête interne pour évaluer l’exposition de ses données d’entraînement propriétaires. Le géant de l’IA assure que les données de ses utilisateurs ne sont pas concernées. Anthropic, de son côté, n’a pas répondu aux sollicitations de la presse.

Lapsus$, TeamPCP : deux groupes, un même butin

L’affaire se complique du côté des attaquants. Un collectif se présentant sous le nom de Lapsus$, groupe de pirates déjà connu pour ses intrusions chez Nvidia, Samsung et Uber en 2022, a revendiqué le vol de données sur des forums du dark web. Les échantillons publiés incluent des conversations Slack internes, des tickets de support et deux vidéos montrant des échanges entre les systèmes d’IA de Mercor et ses contractuels, selon TechCrunch qui a pu les examiner.

Les chercheurs d’Allan Liska, analyste chez Recorded Future, nuancent : il s’agirait d’un groupe empruntant le nom Lapsus$ plutôt que de la formation originale. Le véritable auteur serait TeamPCP, spécialisé dans les attaques de chaîne d’approvisionnement. D’après le magazine Infosecurity, citant des chercheurs de la firme de sécurité Wiz, TeamPCP aurait récemment commencé à collaborer avec plusieurs gangs de rançongiciels pour monétiser ses intrusions à grande échelle.

Le spectre MOVEit plane sur l’industrie

Ce qui inquiète les spécialistes, c’est l’ampleur potentielle de la vague à venir. TeamPCP a publiquement annoncé son intention de s’associer à des groupes d’extorsion pour cibler méthodiquement les entreprises touchées par la faille LiteLLM, rapporte Cybernews. Un scénario qui rappelle l’attaque MOVEit de 2023 : le gang Cl0p avait exploité une vulnérabilité dans cet outil de transfert de fichiers, touchant des centaines d’organisations et affectant au final près de 100 millions de personnes dans le monde (agences gouvernementales, banques, hôpitaux). Les tentatives d’extorsion avaient duré des mois.

Mercor pourrait n’être que le premier domino. La bibliothèque LiteLLM est intégrée dans d’innombrables services d’IA, et chaque entreprise qui a installé les mises à jour piégées devra déterminer si ses propres données ont été compromises.

Les travailleurs fantômes de l’IA pris en otage

Au-delà des secrets industriels, l’attaque expose une autre fragilité : la précarité des dizaines de milliers de contractuels qui forment les modèles d’IA. Chez Mercor, les travailleurs affectés aux projets Meta se retrouvent du jour au lendemain sans mission ni revenu garanti. Selon des conversations internes consultées par WIRED, l’entreprise s’efforce de les réaffecter à d’autres projets, mais sans calendrier précis. Les contractuels n’ont même pas été informés de la raison exacte de la suspension de leurs missions.

L’incident pose aussi la question de la sécurité des données personnelles de ces travailleurs. Les documents d’identité, vidéos d’entretien et informations de paiement potentiellement exposés concernent des experts recrutés dans le monde entier, du sous-continent indien à l’Europe. L’enquête forensique en cours devra déterminer l’étendue précise des fuites.

Quand la recette de l’IA fuit vers la concurrence

Le vrai cauchemar pour les laboratoires américains n’est pas technique : il est stratégique. Si les données d’entraînement de Mercor ont effectivement été exfiltrées, elles pourraient révéler à des concurrents, y compris chinois, les méthodes précises utilisées pour affiner les modèles les plus avancés au monde. Les laboratoires d’IA traitent ces jeux de données comme des secrets de fabrication au même titre que la formule du Coca-Cola.

WIRED souligne toutefois qu’il reste difficile de savoir si les données exposées seraient réellement exploitables par un rival. L’enquête est toujours en cours, et Mercor refuse de répondre aux questions sur l’étendue exacte de la compromission. Meta, elle, ne rouvrira ses projets qu’une fois l’audit de sécurité terminé. Aucun calendrier n’a été communiqué.