Depuis le 13 mars 2026, Claude Opus 4.6 et Sonnet 4.6 peuvent ingérer jusqu’à un million de tokens en une seule conversation, au tarif standard, sans supplément. Anthropic supprime le premium qui s’appliquait jusqu’ici aux requêtes longues et multiplie par six la capacité de traitement d’images et de PDF. Un tournant qui transforme l’IA d’assistant ponctuel en véritable collaborateur capable de travailler sur des dossiers entiers.

Un million de tokens, zéro surcoût

Le chiffre mérite d’être traduit en langage courant. Un million de tokens, c’est environ 700 000 mots — l’équivalent de trois romans de Tolstoï, d’un code source complet d’application ou de plusieurs milliers de pages de documents juridiques. Jusqu’à présent, envoyer des requêtes de cette taille à Claude nécessitait un en-tête spécial (« beta header ») et le coût au token augmentait au-delà de 200 000 tokens.

Tout cela disparaît. Une requête de 900 000 tokens est désormais facturée exactement au même tarif unitaire qu’une de 9 000. Pour Opus 4.6, le modèle le plus puissant d’Anthropic, le prix reste à 5 dollars par million de tokens en entrée et 25 dollars en sortie. Pour Sonnet 4.6, c’est 3 dollars et 15 dollars respectivement. Pas de multiplicateur caché, pas de palier tarifaire supplémentaire.

Le plafond de médias traités par requête passe également de 100 à 600 images ou pages PDF. Concrètement, un avocat peut charger un dossier de 600 pages en un seul échange, là où il fallait auparavant le découper en six morceaux et perdre le fil entre chaque lot.

Pourquoi la taille du contexte change tout

La fenêtre de contexte est la mémoire de travail d’un modèle de langage : c’est la quantité de texte qu’il peut « voir » simultanément avant de répondre. Un contexte plus grand ne sert à rien si le modèle oublie ce qu’il a lu au début — un problème connu sous le nom de « lost in the middle », qui affecte de nombreux LLM lorsqu’ils travaillent sur des textes longs.

Anthropic affiche un score de 78,3 % sur le benchmark MRCR v2, qui mesure la capacité d’un modèle à retrouver des informations précises dans un contexte d’un million de tokens. Selon l’entreprise, c’est le score le plus élevé parmi les modèles frontière à cette longueur de contexte. En d’autres termes, Claude ne se contente pas d’accepter un livre entier : il peut en retrouver un passage spécifique sans le confondre avec un autre.

Pour les utilisateurs de Claude Code, l’outil de programmation assistée d’Anthropic, la différence est immédiate. Avec 200 000 tokens, les sessions longues déclenchaient régulièrement des « compactions » — des résumés automatiques qui sacrifient des détails pour libérer de la mémoire. Résultat : l’IA oubliait des fichiers déjà lus, répétait des erreurs corrigées, ou perdait le contexte d’un débogage en cours. Selon Anton Biryukov, ingénieur logiciel interrogé par Anthropic, le passage à 1 million de tokens lui permet de « chercher, rechercher, agréger les cas limites et proposer des corrections, le tout dans une seule fenêtre ».

Juristes, chercheurs, développeurs : les premiers bénéficiaires

Anthropic a publié une série de témoignages d’utilisateurs qui illustrent des cas d’usage concrets. Un cabinet juridique spécialisé dans les plaignants décrit comment ses avocats peuvent désormais « charger cinq versions successives d’un contrat de 100 pages dans une seule session et enfin voir l’arc complet d’une négociation ». Fini le va-et-vient entre versions, les détails qui se perdent entre les tours de négociation.

Dans la recherche scientifique, un cofondateur rapporte que ses systèmes agentiques peuvent « synthétiser des centaines d’articles, de preuves mathématiques et de bases de code en une seule passe », accélérant selon lui « de manière spectaculaire » la recherche fondamentale et appliquée en physique.

Côté développement logiciel, Jon Bell, directeur produit d’une entreprise de productivité, note une baisse de 15 % des événements de compaction depuis le passage au contexte d’un million de tokens. Ses agents « tiennent tout en mémoire et fonctionnent pendant des heures sans oublier ce qu’ils ont lu à la première page ».

Où en est la concurrence

Google a été le premier à proposer une fenêtre d’un million de tokens avec Gemini 1.5 Pro en février 2024, une avancée qui avait fait sensation à l’époque. Gemini 2.5 Pro maintient cette capacité. Du côté d’OpenAI, GPT-4.1 dispose également d’une fenêtre d’un million de tokens depuis son lancement en avril 2025.

La différence d’Anthropic tient dans la politique tarifaire. En supprimant tout premium sur le contexte long, l’entreprise rend cette fonctionnalité économiquement accessible pour des usages quotidiens. Quand vos coûts doublent ou triplent au-delà d’un certain seuil chez un concurrent, l’incitation à découper vos documents en morceaux revient — et avec elle, la perte de cohérence qui va avec.

L’annonce a provoqué un vif intérêt dans la communauté technique. Sur Hacker News, le fil de discussion a attiré près de 500 commentaires en moins de 24 heures, devenant le sujet le plus voté de la journée du 14 mars. Plusieurs développeurs y saluent la disparition du beta header comme un signal que la technologie est enfin prête pour la production.

Ce qui reste à prouver

Un million de tokens n’est pas la panacée. Le coût total d’une requête massive reste significatif : envoyer un million de tokens à Opus 4.6 coûte 5 dollars en entrée seule, ce qui peut grimper vite dans des flux de travail automatisés. La latence augmente également avec la taille du contexte, même si Anthropic ne communique pas de chiffres précis à ce sujet.

La question de la qualité réelle au-delà de 500 000 tokens fait aussi débat. Le benchmark MRCR v2 mesure la récupération d’information, mais les tâches de raisonnement complexe sur des contextes très longs restent un défi ouvert pour l’ensemble de l’industrie. Les utilisateurs devront tester par eux-mêmes si le gain est réel pour leurs cas d’usage spécifiques.

Il n’empêche : rendre le contexte long accessible sans friction ni surcoût est un signal clair. Anthropic parie que l’avenir de l’IA passe par des assistants capables de travailler sur des projets entiers, pas seulement de répondre à des questions isolées. Reste à voir si la concurrence suivra sur le terrain du prix.