Claude Sonnet 4.6 : Anthropic muscle le jeu

Un million de tokens. C’est la taille de la fenêtre de contexte que propose désormais Claude Sonnet 4.6, le dernier modèle d’Anthropic lancé ce mardi 17 février. Assez pour avaler un code source entier, un contrat de 500 pages ou une trentaine d’articles scientifiques d’un coup.

Le milieu de gamme qui joue dans la cour des grands

Sonnet, c’est la gamme intermédiaire chez Anthropic. Pas le plus puissant (c’est Opus), pas le plus léger (c’est Haiku). Mais avec cette version 4.6, la frontière se brouille sérieusement. Selon Anthropic, les développeurs qui ont testé le modèle en accès anticipé le préfèrent souvent à Opus 4.5, sorti en novembre 2025. En clair : le « petit » fait aussi bien que l’ancien « gros ».

Les améliorations touchent le code, le suivi d’instructions, la planification et l’utilisation d’ordinateur. Le modèle devient aussi le choix par défaut pour les utilisateurs gratuits et Pro de claude.ai. Côté tarifs API, rien ne bouge : 3 dollars par million de tokens en entrée, 15 en sortie.

L’ordinateur, ce n’est plus de la science-fiction

Le point qui retient l’attention, c’est la progression sur l’utilisation d’ordinateur. Anthropic avait lancé cette fonctionnalité en octobre 2024, à l’époque encore « expérimentale et bancale » de leur propre aveu. Depuis, les scores sur OSWorld (un benchmark qui teste des centaines de tâches sur de vrais logiciels comme Chrome, LibreOffice ou VS Code) grimpent à chaque version.

Sonnet 4.6 approche d’un niveau humain sur certaines tâches : naviguer dans un tableur complexe, remplir un formulaire web en plusieurs étapes, jongler entre des onglets de navigateur. Pas encore au niveau d’un expert, mais la trajectoire est nette.

60,4% sur ARC-AGI-2, et ce que ça veut dire

Sur ARC-AGI-2, un test censé mesurer des capacités proches de l’intelligence humaine, Sonnet 4.6 décroche 60,4%. Un score qui le place devant la plupart des modèles comparables, même s’il reste derrière Opus 4.6, Gemini 3 Deep Think et une version optimisée de GPT 5.2. Sur SWE-Bench (ingénierie logicielle) et OS World, le modèle établit aussi de nouveaux records pour sa catégorie.

Quatre mois, un nouveau modèle

Ce lancement intervient à peine deux semaines après la sortie d’Opus 4.6, qui introduisait les « équipes d’agents ». Un modèle Haiku mis à jour devrait suivre dans les prochaines semaines. Anthropic tient son rythme de mise à jour, et la concurrence avec OpenAI et Google ne faiblit pas.

Côté sécurité, Anthropic assure que Sonnet 4.6 résiste mieux aux injections de prompt que son prédécesseur Sonnet 4.5. Un point qui compte quand on laisse une IA naviguer sur le web à sa place. Les évaluations internes décrivent le modèle comme ayant « un caractère chaleureux, honnête, prosocial et parfois drôle ». On les croit sur parole ?

Claude Sonnet 4.6 : Anthropic muscle son modèle milieu de gamme et double la mise

Le milieu de gamme qui joue dans la cour des grands

À lire aussi

L’ordinateur, ce n’est plus de la science-fiction

60,4% sur ARC-AGI-2, et ce que ça veut dire

Quatre mois, un nouveau modèle

Partager

Laisser un commentaire Annuler la réponse

Articles similaires

ElevenLabs vend de la musique IA : le hic, c’est que personne ne la possède

D’ici 2027, les robots seront plus nombreux que vous sur Internet

5 000 arnaques bloquées par jour : pourquoi Meta remplace ses modérateurs humains par l’IA