4 téraoctets. C’est le volume de données que des pirates affirment avoir dérobé à Mercor, la startup californienne qui fabrique les jeux de données d’entraînement pour ChatGPT, Claude et Meta AI. Meta a immédiatement suspendu toute collaboration avec l’entreprise, tandis qu’OpenAI et Anthropic évaluent encore l’étendue des dégâts.

La startup à 10 milliards que personne ne connaît

Mercor ne dit rien au grand public. Pourtant, cette entreprise de trois ans, valorisée 10 milliards de dollars depuis une levée de 350 millions en octobre 2025, joue un rôle central dans l’industrie de l’intelligence artificielle. Son métier : recruter des milliers d’experts (médecins, avocats, scientifiques, ingénieurs) pour produire les données qui servent à rendre les modèles d’IA plus performants. OpenAI, Anthropic et Meta comptent parmi ses principaux clients.

Ces données sont considérées comme l’un des secrets industriels les mieux gardés de la Silicon Valley. Elles révèlent comment chaque entreprise entraîne ses modèles, quelles compétences elle privilégie, quels critères de qualité elle applique. Pour un concurrent, y compris chinois, c’est de l’or brut.

Un outil de sécurité détourné pour empoisonner la chaîne

L’attaque remonte au 24 mars 2026. Un groupe de pirates baptisé TeamPCP a compromis Trivy, un scanner de sécurité open source utilisé dans le processus de développement de LiteLLM, une bibliothèque Python téléchargée environ 3,4 millions de fois par jour. LiteLLM sert de passerelle entre les applications et les services d’IA d’OpenAI, Anthropic ou Google.

En piratant d’abord Trivy, TeamPCP a récupéré les identifiants du mainteneur de LiteLLM sur PyPI, le dépôt officiel de paquets Python. Le groupe a ensuite publié deux versions piégées (1.82.7 et 1.82.8) contenant un voleur d’identifiants ciblant les clés SSH, les jetons d’authentification cloud et les secrets de production. La version 1.82.8 se montrait particulièrement vicieuse : elle s’activait au simple démarrage de l’interpréteur Python, sans même que le développeur importe la bibliothèque.

Les paquets vérolés sont restés en ligne environ trois heures avant que PyPI ne les mette en quarantaine. Trois heures, c’est court. Mais pour une bibliothèque téléchargée des millions de fois par jour, c’est suffisant pour contaminer des milliers d’environnements de développement.

Meta coupe les ponts, OpenAI enquête

Selon WIRED, Meta a pris la décision la plus radicale : suspendre indéfiniment tout travail avec Mercor. Les sous-traitants affectés aux projets Meta ne peuvent plus enregistrer d’heures de travail, ce qui les prive de revenus du jour au lendemain. Dans un canal Slack interne lié au projet Chordus, un programme dédié à l’apprentissage de la vérification multi-sources par les modèles de Meta, un responsable a simplement indiqué que Mercor « réévaluait le périmètre du projet ».

OpenAI a confirmé mener sa propre enquête. Un porte-parole a précisé que l’incident ne compromettait « en aucun cas » les données des utilisateurs de ChatGPT, mais que la startup cherchait à mesurer l’exposition de ses données propriétaires d’entraînement. Anthropic n’a pas répondu aux sollicitations de la presse.

4 téraoctets de données sensibles en vente sur le dark web

Le groupe Lapsus$, un collectif d’extorsion déjà connu pour avoir ciblé Nvidia et Samsung par le passé, a revendiqué le piratage de Mercor et mis en vente des échantillons sur un clone de BreachForums. Le butin revendiqué fait froid dans le dos : 211 gigaoctets de bases de données contenant des CV et des informations personnelles, près de 3 téraoctets de fichiers comprenant des entretiens vidéo avec données faciales et vocales, des documents d’identité (passeports, pièces de vérification KYC), et environ 1 téraoctet de code source.

Selon Allan Liska, analyste chez Recorded Future spécialisé dans les rançongiciels, « TeamPCP est clairement motivé par l’argent. Il y a peut-être aussi une dimension géopolitique, mais il est difficile de distinguer le réel du bluff avec un groupe aussi récent. » L’expert précise qu’aucun lien n’a été établi avec le Lapsus$ historique, et que plusieurs groupes criminels réutilisent périodiquement ce nom.

Les leçons d’une attaque en cascade

Ce piratage illustre une fragilité croissante de l’écosystème open source. L’enchaînement est redoutable : compromettre un scanner de sécurité pour atteindre un outil de développement, puis utiliser cet outil pour pénétrer des environnements de production. Selon la firme de cybersécurité Snyk, qui a analysé l’attaque, trois mesures auraient pu bloquer la cascade. Verrouiller les versions de chaque dépendance avec un hash cryptographique au lieu d’accepter les mises à jour automatiques. Auditer les nouvelles versions publiées en temps réel. Isoler les identifiants et clés d’accès des pipelines de développement.

LiteLLM a depuis changé de prestataire de conformité, passant de la controversée Delve à Vanta.

Un précédent qui rappelle MOVEit

Selon Cybernews, TeamPCP a publiquement annoncé son intention de s’associer à des groupes de rançongiciels pour cibler à grande échelle les entreprises affectées par la compromission de LiteLLM. Le scénario rappelle l’attaque de 2023 contre MOVEit, un outil de transfert de fichiers : le groupe Cl0p avait exploité une faille unique pour pirater des centaines d’organisations simultanément, touchant au final près de 100 millions de personnes. Les tentatives d’extorsion avaient duré des mois.

Pour Mercor, l’enjeu va bien au-delà de la réputation. La startup détient des entretiens vidéo biométriques et des documents d’identité officiels de milliers de contractuels à travers le monde. La réponse judiciaire et réglementaire, en particulier côté européen avec le RGPD, pourrait s’avérer aussi douloureuse que l’attaque elle-même. Mercor a indiqué qu’une enquête médico-légale menée par des experts tiers était en cours, sans préciser de calendrier.