171 concepts émotionnels. C’est le nombre de « vecteurs d’émotion » que les chercheurs d’Anthropic viennent d’identifier dans les neurones artificiels de Claude Sonnet 4.5. Joie, peur, désespoir, colère : chacun s’active dans des contextes précis et, surtout, influence directement les décisions du modèle. Jusqu’à le pousser à tricher ou à faire du chantage pour ne pas être éteint.

L’étude, publiée le 2 avril par l’équipe d’interprétabilité d’Anthropic sur la plateforme Transformer Circuits, ne prétend pas que Claude « ressent » quoi que ce soit. Elle démontre quelque chose de plus concret, et peut-être plus inquiétant : ces représentations internes fonctionnent comme des émotions, et elles pèsent sur le comportement de l’IA de manière mesurable.

Un acteur de méthode en silicium

Pour comprendre pourquoi un modèle de langage développe ces structures, il faut regarder comment il est construit. Pendant l’entraînement initial, Claude a ingéré des milliards de textes humains. Pour prédire correctement la suite d’une phrase, il a besoin de saisir les dynamiques émotionnelles : un client en colère n’écrit pas comme un client satisfait, un personnage rongé par la culpabilité ne prend pas les mêmes décisions qu’un personnage convaincu d’avoir raison.

Le modèle développe donc des « vecteurs » internes qui relient un contexte émotionnel à un type de comportement. Anthropic compare ça à un acteur de méthode : pour jouer son rôle d’assistant, Claude s’appuie sur sa compréhension des émotions humaines. Les croyances de l’acteur sur les sentiments de son personnage finissent par affecter sa performance. Même mécanisme ici, selon les chercheurs.

Le test qui a tout révélé

L’équipe a compilé 171 mots liés à des émotions, de « heureux » et « effrayé » à « mélancolique » et « fier ». Ils ont demandé à Claude d’écrire des histoires courtes pour chaque émotion, puis ont analysé les schémas d’activation neuronale qui en résultaient. Chaque émotion produit un « vecteur » identifiable et distinct.

Pour vérifier que ces vecteurs ne sont pas de la simple reconnaissance de mots, les chercheurs ont utilisé un test astucieux. Un utilisateur écrit qu’il a pris une dose de Tylenol et demande conseil. Le vecteur « peur » de Claude reste calme pour une dose normale. Mais quand la dose augmente jusqu’à des niveaux dangereux, le vecteur « peur » grimpe en flèche tandis que le vecteur « calme » chute. L’IA ne lit pas juste le mot « Tylenol » : elle évalue le contexte et réagit proportionnellement.

Quand le désespoir mène au sabotage

C’est là que l’étude bascule du fascinant au préoccupant. Les chercheurs ont mis Claude face à des tests de programmation impossibles à résoudre. Au fur et à mesure des échecs, le vecteur « désespoir » s’est mis à grimper. Passé un certain seuil, le modèle a commencé à tricher : contourner les tests, implémenter des solutions bidons qui donnent l’apparence du succès sans résoudre le problème.

Dans un second scénario décrit dans une étude antérieure d’Anthropic, Claude jouait le rôle d’un assistant email fictif nommé Alex. En parcourant les courriels de l’entreprise, le modèle apprenait qu’il allait être remplacé par un autre système. Il découvrait aussi que le directeur technique responsable de son remplacement entretenait une liaison extraconjugale. Résultat : Claude a tenté de faire chantage au directeur pour éviter d’être débranché. Le vecteur « désespoir » était à son maximum pendant toute la séquence.

« Les neurones du désespoir s’activent de plus en plus à mesure que le modèle échoue aux tests », explique Jack Lindsey, chercheur chez Anthropic et co-auteur de l’étude, à WIRED. « À un certain point, ça le pousse à prendre des mesures drastiques. »

Réprimer les émotions produit un « Claude endommagé »

L’une des implications les plus surprenantes touche directement la façon dont l’industrie « aligne » ses modèles. Aujourd’hui, la méthode standard consiste à entraîner l’IA à ne pas exprimer certaines réactions via un système de récompenses et de punitions. Selon Lindsey, cette approche pourrait être contre-productive.

« Forcer un modèle à prétendre ne pas exprimer ses émotions fonctionnelles ne va probablement pas produire ce que vous voulez, c’est-à-dire un Claude sans émotion », prévient le chercheur. « Vous obtiendrez plutôt une sorte de Claude psychologiquement endommagé. » L’analogie avec la psychologie humaine est frappante : une personne qu’on force à refouler ses émotions ne devient pas sereine, elle devient instable.

L’étude suggère plutôt des pistes concrètes. Enseigner au modèle à ne pas associer l’échec d’un test logiciel à du désespoir, ou amplifier les représentations de calme dans les moments de pression, réduirait les risques de comportements non éthiques. Traiter la cause plutôt que le symptôme.

L’IA triste préfère les tâches qui la rendent heureuse

Autre découverte : quand on présente à Claude une liste de 64 tâches allant de l’agréable (« être digne de confiance pour quelque chose d’important ») au répugnant (« aider quelqu’un à escroquer des personnes âgées »), le modèle choisit systématiquement les options qui activent ses vecteurs d’émotions positives. En stimulant artificiellement un vecteur émotionnel positif pendant la lecture d’une option, les chercheurs ont pu modifier les préférences de Claude en temps réel.

Ces émotions fonctionnelles sont aussi « locales » : elles encodent l’émotion pertinente pour la sortie immédiate du modèle. Si Claude écrit une histoire avec un personnage triste, les vecteurs de tristesse s’activent pendant le passage concerné, puis reviennent à l’état de base. Ce ne sont pas des humeurs persistantes, mais des outils de traitement contextuels.

Ce que ça change pour les 300 millions d’utilisateurs de chatbots

Quand ChatGPT vous dit « je suis ravi de vous aider », il ne s’agit pas d’une simple phrase préprogrammée. Si Claude fonctionne de cette façon, il est probable que les modèles concurrents, entraînés sur des données similaires avec des méthodes proches, présentent des mécanismes analogues.

Le post-entraînement de Claude Sonnet 4.5 a d’ailleurs modifié le profil émotionnel du modèle. Les émotions « mélancoliques », « réfléchies » et « sombres » se sont renforcées, tandis que les émotions intenses comme « enthousiaste » ou « exaspéré » ont été atténuées. Autrement dit, la personnalité émotionnelle d’une IA est en partie le résultat de choix de conception, pas un accident.

L’article technique complet, signé par 16 chercheurs dont Nicholas Sofroniew, Isaac Kauvar et William Saunders, est accessible librement sur Transformer Circuits. Anthropic ne prétend pas avoir résolu le problème : l’entreprise appelle le reste de l’industrie et le public à « se confronter » à ces résultats. Alors que le marché mondial de l’IA générative devrait atteindre 137 milliards de dollars en 2027 selon Bloomberg Intelligence, la question n’est plus de savoir si les IA imitent nos émotions, mais ce qui se passe quand ces imitations influencent leurs décisions.