Anthropic abandonne sa promesse de sécurité IA

En septembre 2023, Anthropic s’était engagée publiquement à ne jamais entraîner un modèle d’IA si ses mesures de sécurité n’étaient pas à la hauteur. Deux ans et demi plus tard, la startup californienne vient de supprimer cette promesse de sa politique interne. Son directeur scientifique Jared Kaplan justifie ce revirement par la pression concurrentielle. Le geste fragilise un peu plus le fragile édifice de l’autorégulation dans l’industrie de l’IA.

La version 3.0 de la Responsible Scaling Policy (RSP), publiée le 25 février, remplace la clause qui interdisait à Anthropic de lancer un modèle dépassant certains seuils de capacité tant que les garde-fous correspondants n’étaient pas en place. Concrètement, la version originale fonctionnait comme un système de paliers inspiré des niveaux de biosécurité : chaque palier (ASL-2, ASL-3, etc.) imposait des protections spécifiques avant tout développement supplémentaire. Si les protections n’existaient pas, le développement s’arrêtait. Point final.

La course a rattrapé les promesses

« Nous avons estimé que personne ne gagnerait à ce que nous arrêtions d’entraîner des modèles d’IA », a déclaré Kaplan à Time Magazine dans une interview exclusive. « Avec l’avancée rapide de l’IA, il ne nous semblait pas logique de prendre des engagements unilatéraux si nos concurrents avancent à plein régime. »

La nouvelle politique promet toujours de « retarder » le développement, mais à une condition double : qu’Anthropic soit en tête de la course à l’IA ET que les dirigeants estiment le risque de catastrophe significatif. La nuance est de taille. L’ancienne règle était catégorique, la nouvelle repose sur un jugement subjectif.

Business Insider rapporte que Kaplan a présenté ce changement comme pragmatique et non comme un recul. « Je ne pense pas que nous fassions un demi-tour », a-t-il dit. L’argument central : si un développeur responsable se met en pause pendant que les autres foncent, le monde se retrouve dans une situation pire, car les acteurs les moins prudents fixent le tempo.

380 milliards de valorisation, et la prudence qui s’effrite

Le changement intervient à un moment où Anthropic n’a jamais été aussi puissant commercialement. La startup a levé 30 milliards de dollars en février 2026, pour une valorisation de 380 milliards, selon Time Magazine. Son chiffre d’affaires annualisé progresse au rythme de dix fois par an. Claude Code, son outil de programmation, a conquis une base d’utilisateurs fidèles. L’application Claude vient même de grimper à la deuxième place de l’App Store américain, selon des données SensorTower relayées par TechCrunch.

Anthropic avait espéré que sa RSP inspirerait ses concurrents et servirait de modèle pour de futures réglementations nationales ou internationales. Aucun de ces deux scénarios ne s’est réalisé. L’administration Trump a adopté une posture de dérégulation totale sur l’IA, allant jusqu’à tenter d’invalider les réglementations votées par les États. Aucune loi fédérale sur l’IA ne se profile à l’horizon. La perspective d’un cadre de gouvernance mondial, encore plausible en 2023, s’est évanouie.

Les évaluations de sécurité, plus floues que prévu

L’un des aveux les plus révélateurs de la RSP v3 concerne les limites de la science des évaluations. En 2023, Anthropic imaginait des seuils de capacité nets, des lignes rouges bien visibles qui déclencheraient automatiquement des protections renforcées. La réalité s’est avérée plus complexe.

En 2025, la startup a constaté qu’elle ne pouvait pas exclure que ses modèles facilitent une attaque bioterroriste. Mais elle manquait aussi de preuves scientifiques solides pour affirmer que le danger était réel. Ce qui devait être un seuil binaire s’est transformé en « gradient flou », selon les mots du blog officiel d’Anthropic. Cette zone grise rendait impossible de convaincre les gouvernements et les concurrents d’agir.

Chris Painter, directeur des politiques publiques chez METR, une organisation à but non lucratif spécialisée dans l’évaluation des risques liés à l’IA, a pu consulter un brouillon de la nouvelle politique. Son diagnostic est sévère : le changement montre qu’Anthropic « estime devoir passer en mode triage pour ses plans de sécurité, parce que les méthodes d’évaluation et de réduction des risques ne suivent pas le rythme des capacités », a-t-il confié à Time. « C’est une preuve supplémentaire que la société n’est pas préparée aux risques catastrophiques potentiels de l’IA. »

Toutes les grandes promesses de l’industrie sont tombées

Le physicien du MIT Max Tegmark, fondateur du Future of Life Institute, dresse un parallèle accablant dans un entretien accordé à TechCrunch. Google avait son « Don’t be evil ». Abandonné. OpenAI a retiré le mot « safety » de sa mission. xAI a dissous son équipe de sécurité après la fusion avec SpaceX. Et Anthropic vient de neutraliser le pilier central de sa propre politique de sécurité.

« Aucune de ces entreprises n’a soutenu une réglementation contraignante comparable à ce qui existe dans d’autres industries », souligne Tegmark. « Et les quatre ont rompu leurs propres promesses. » Le constat s’alourdit quand on le met en perspective : la lettre ouverte qu’il avait organisée en 2023, signée par plus de 33 000 personnes dont Elon Musk, appelait à une pause dans le développement de l’IA avancée. Trois ans plus tard, le développement a accéléré et les garde-fous reculent.

Transparence renforcée, mais freins affaiblis

Anthropic tente de compenser la perte du frein d’urgence par de la transparence. La RSP v3 prévoit la publication de « rapports de risque » tous les trois à six mois et de « feuilles de route de sécurité » détaillant les objectifs de protection futurs. Un porte-parole a affirmé à Business Insider que la nouvelle politique « est la plus forte à ce jour en matière de transparence et de responsabilité publique ».

Chris Painter de METR reconnaît la valeur de ces engagements, tout en exprimant une inquiétude : l’abandon des seuils binaires pourrait provoquer un « effet grenouille », où le danger monte graduellement sans qu’un signal d’alarme ne se déclenche jamais.

Le prochain test concret de cette nouvelle politique arrivera vite. Anthropic prépare des modèles de prochaine génération dont les capacités dépasseront probablement les paliers qui auraient, sous l’ancienne politique, exigé un arrêt du développement. Le Parlement européen doit examiner en avril les premières obligations de transparence imposées aux fournisseurs de modèles d’IA à haut risque dans le cadre de l’AI Act, ce qui pourrait offrir le cadre réglementaire qu’Anthropic dit ne plus pouvoir attendre.

Anthropic renonce à stopper le développement si la sécurité ne suit pas : la promesse fondatrice tombe

La course a rattrapé les promesses

380 milliards de valorisation, et la prudence qui s’effrite

À lire aussi

Les évaluations de sécurité, plus floues que prévu

Toutes les grandes promesses de l’industrie sont tombées

Transparence renforcée, mais freins affaiblis

Partager

Laisser un commentaire Annuler la réponse

Articles similaires

Il a généré des milliers de chansons par IA et empoché 10 millions en faux streams

ElevenLabs vend de la musique IA : le hic, c’est que personne ne la possède

D’ici 2027, les robots seront plus nombreux que vous sur Internet