3 000 documents internes, un brouillon de blog jamais publié, et le nom de code d’un modèle qu’Anthropic voulait garder secret. Vendredi, des chercheurs en cybersécurité ont découvert que la startup la plus obsédée par la sécurité de l’IA avait laissé sa porte grande ouverte, par une simple erreur de configuration.
Le modèle s’appelle Claude Mythos, nom de code interne « Capybara ». Selon les brouillons récupérés, il surpasse tous les modèles existants d’Anthropic, y compris Opus 4.6. La fuite a provoqué une chute immédiate de 3 à 7 % des actions cybersécurité en bourse. Et pour cause : les documents décrivent un système capable de trouver et d’exploiter des failles logicielles « bien plus vite que n’importe quel défenseur ».
Un CMS mal configuré, 3 000 fichiers exposés
L’affaire a été révélée par Fortune jeudi 26 mars. Alexandre Pauwels, chercheur en cybersécurité à l’université de Cambridge, et Roy Paz, chercheur senior chez LayerX Security, ont indépendamment localisé et analysé le contenu. Près de 3 000 fichiers liés au blog d’Anthropic, jamais publiés sur le site public, étaient accessibles sans aucune authentification.
La cause est d’une banalité confondante : le système de gestion de contenu (CMS) utilisé par Anthropic rend tous les fichiers uploadés publics par défaut. Il faut cocher manuellement l’option « privé » pour restreindre l’accès. Anthropic a oublié de le faire pour des centaines de documents, dont des brouillons d’annonces produit, des invitations à un sommet privé de PDG européens, et surtout un billet de blog détaillant Claude Mythos.
« Une erreur humaine dans la configuration du CMS », a reconnu un porte-parole d’Anthropic auprès de Fortune. L’entreprise a précisé que la faille « n’avait aucun lien avec Claude, Cowork, ou un quelconque outil IA d’Anthropic ». Les fichiers ont été sécurisés après que Fortune a alerté l’entreprise jeudi soir.
Capybara, un nouveau palier au-dessus d’Opus
Le brouillon le plus explosif décrit Claude Mythos comme « de loin le modèle d’IA le plus puissant que nous ayons jamais développé ». Ce n’est pas une mise à jour d’Opus 4.6, la version la plus avancée actuellement commercialisée. C’est un étage supplémentaire dans la hiérarchie d’Anthropic.
Jusqu’ici, Anthropic proposait trois niveaux pour chaque génération de Claude : Haiku (le plus léger), Sonnet (intermédiaire) et Opus (le plus performant). Capybara constituerait un quatrième palier, « plus grand et plus intelligent qu’Opus », selon le brouillon, mais aussi « très coûteux à servir, et très coûteux pour nos clients ». Ce détail explique en partie les restrictions de débit que les utilisateurs de Claude ont constaté toute la semaine, rapporte The Neuron.
Le document affirme que Capybara obtient des « scores considérablement supérieurs » à Opus 4.6 en programmation, raisonnement académique et cybersécurité. Anthropic a confirmé l’existence du modèle dans un communiqué adressé à Fortune : « Nous développons un modèle généraliste avec des avancées significatives en raisonnement, programmation et cybersécurité. Compte tenu de la puissance de ses capacités, nous sommes prudents quant à son déploiement. »
Le paradoxe : un modèle qui inquiète son propre créateur
Le passage le plus frappant du brouillon concerne la cybersécurité. Anthropic y décrit Mythos comme « actuellement très en avance sur tout autre modèle d’IA en matière de cybercapacités » et prévient qu’il « annonce une vague de modèles capables d’exploiter des vulnérabilités d’une manière qui dépasse largement les efforts des défenseurs ».
Pour mesurer l’ampleur du problème : l’entreprise elle-même envisageait de fournir un accès anticipé à des organisations tierces afin de leur donner « une longueur d’avance pour renforcer la robustesse de leurs bases de code face à la vague imminente d’exploits pilotés par l’IA ». En clair, Anthropic sait que son propre modèle pourrait servir d’arme, et cherchait à préparer les défenseurs avant le lancement.
Ce n’est pas la première fois qu’Anthropic soulève ce type d’alerte. En mars, la startup avait déjà démontré que Claude pouvait détecter et exploiter des failles dans Firefox en quelques minutes. La différence, cette fois, est d’échelle : Mythos ne corrige pas des vulnérabilités, il les trouve plus vite que les humains ne peuvent les colmater.
Wall Street sanctionne, la Bourse panique
Les marchés ont réagi vendredi avec une brutalité inhabituelle pour une simple fuite de documents. CrowdStrike a perdu 7 %, Palo Alto Networks 6 %, Fortinet entre 4 et 5 %, selon Investing.com. L’ETF iShares Expanded Tech-Software Sector (IGV) a reculé de près de 3 %. Même le bitcoin a décroché, retombant à 66 000 dollars après avoir frôlé les 70 000 dollars quelques heures plus tôt, rapporte CoinDesk.
La logique des investisseurs est simple : si un modèle IA peut désormais trouver et exploiter des failles logicielles à une vitesse industrielle, les entreprises de cybersécurité devront soit absorber le choc, soit se transformer. Les outils de détection traditionnels risquent de devenir obsolètes face à des attaques pilotées par des modèles capables de générer des exploits sur mesure.
Anthropic, le prêcheur de sécurité pris en flagrant délit
L’ironie de la situation n’a échappé à personne. Anthropic s’est construite sur une promesse de sécurité. Fondée en 2021 par d’anciens dirigeants d’OpenAI, la startup a refusé des contrats militaires, publié des politiques de sécurité détaillées, et revendiqué une approche « responsable » du développement de l’IA. En février, l’entreprise a toutefois abandonné sa promesse fondatrice de stopper le développement si la sécurité ne suivait pas.
Et voilà que cette même entreprise laisse 3 000 documents traîner sur un serveur public parce qu’un réglage CMS est resté sur « public par défaut ». Pas une faille zero-day. Pas une attaque sophistiquée. Un oubli de case à cocher.
Anthropic tente de minimiser : « Ces documents étaient des brouillons préliminaires et n’impliquaient ni notre infrastructure, ni nos systèmes IA, ni les données clients, ni notre architecture de sécurité. » Peut-être. Mais le brouillon révélant Mythos contenait des informations stratégiques sur les capacités offensives du modèle, suffisamment précises pour faire plonger des actions en bourse.
La course aux modèles frontières accélère
Pendant qu’Anthropic gère les retombées de sa fuite, la compétition ne ralentit pas. Selon The Information, OpenAI a terminé le pré-entraînement de son prochain modèle, nom de code « Spud », le 25 mars. Sam Altman aurait déclaré en interne que « les choses avancent plus vite que beaucoup d’entre nous ne l’anticipaient ». En parallèle, SoftBank vient de contracter un prêt de 40 milliards de dollars pour financer son investissement de 30 milliards dans OpenAI, selon un communiqué officiel relayé par TechCrunch et Bloomberg.
Ce prêt non garanti à échéance 12 mois renforce les spéculations sur une introduction en bourse d’OpenAI d’ici fin 2026, seul événement de liquidité capable de rembourser une telle somme. JPMorgan Chase, Goldman Sachs et quatre banques japonaises participent au montage.
La fuite d’Anthropic illustre un paradoxe croissant de l’industrie : les modèles les plus avancés sont aussi les plus dangereux, et les entreprises qui les construisent peinent parfois à appliquer à elles-mêmes les standards de sécurité qu’elles prônent. La prochaine vague de modèles frontières, qu’elle vienne d’Anthropic, d’OpenAI ou de DeepSeek, posera des questions de cybersécurité que ni les régulateurs ni les défenseurs ne sont aujourd’hui prêts à affronter.