Demandez à ChatGPT de résumer un document de 50 pages en une seule requête : il s’en sort plutôt bien. Découpez la même demande en dix messages successifs, en ajoutant des précisions au fil de l’échange : la réponse se dégrade, parfois jusqu’à devenir inutilisable. Une étude de Salesforce Research et Microsoft Research, publiée sur arXiv en mai 2025 puis actualisée en février 2026, a mesuré cette chute : 33 % de précision en moins quand les instructions sont fragmentées sur plusieurs tours de conversation. Pourquoi les chatbots IA perdent-ils le fil aussi vite ? La réponse se cache dans trois mécanismes que tout utilisateur devrait connaître : les tokens, la fenêtre de contexte et le mécanisme d’attention.

Le texte que vous tapez n’est pas celui que l’IA lit

Un modèle de langage ne lit pas des mots. Il découpe chaque phrase en fragments appelés tokens, des morceaux qui correspondent tantôt à un mot entier, tantôt à une syllabe, tantôt à un simple caractère. Le mot « chatbot » consomme un seul token dans la plupart des modèles. Le mot « anticonstitutionnellement » en consomme quatre ou cinq, selon le tokenizer utilisé. Un emoji peut en prendre deux ou trois.

Cette étape de découpage, la tokenisation, conditionne tout ce qui suit. Chaque token reçoit un identifiant numérique et se voit transformé en un vecteur de plusieurs centaines de dimensions, une sorte de coordonnée dans un espace mathématique abstrait. C’est sur ces vecteurs, pas sur vos mots, que le modèle travaille. Le processus a été formalisé dans la littérature dès les travaux fondateurs sur les word embeddings par Mikolov et al. en 2013, puis affiné avec les sous-mots (BPE, Byte Pair Encoding) popularisés par OpenAI avec GPT-2 en 2019.

Conséquence directe : un message de 500 mots en français consomme entre 600 et 900 tokens. Un échange de dix messages peut facilement dépasser les 10 000 tokens, rien que pour la partie utilisateur. Et c’est là que les ennuis commencent.

La fenêtre de contexte, ou la mémoire à court terme de l’IA

Chaque modèle dispose d’une capacité maximale de tokens qu’il peut traiter en une seule passe. C’est sa fenêtre de contexte. GPT-3 plafonnait à 4 096 tokens en 2022. GPT-4 est monté à 128 000. Gemini 1.5 Pro de Google a repoussé la limite à un million de tokens en février 2024, selon Google DeepMind. Claude 3 d’Anthropic atteint 200 000 tokens.

Ces chiffres impressionnent sur le papier. Mais une fenêtre plus grande ne signifie pas une mémoire plus fiable. Des chercheurs de Stanford et de l’UC Berkeley ont démontré en 2023, dans une étude publiée dans Transactions of the Association for Computational Linguistics (TACL), que les modèles souffrent d’un biais de position : ils retiennent bien les informations placées au début et à la fin de leur contexte, mais « oublient » celles situées au milieu. Ils ont baptisé ce phénomène « Lost in the Middle ». Le problème persiste en 2026, y compris sur les modèles les plus récents, selon les tests actualisés de Philippe Laban (Salesforce Research) rapportés par The Decoder.

Le mécanisme d’attention : tout écouter, mal retenir

Le cœur de tous les modèles de langage actuels s’appelle le Transformer, une architecture présentée en 2017 par Vaswani et al. (Google Brain) dans le célèbre article « Attention Is All You Need ». Son innovation centrale : le mécanisme d’attention, ou self-attention. Au lieu de lire le texte mot par mot comme les anciens réseaux de neurones récurrents, un Transformer examine tous les tokens simultanément et calcule, pour chacun, à quel point il doit « prêter attention » aux autres.

Prenez la phrase « Le chat dort sur le canapé parce qu’il est fatigué ». Pour comprendre que « il » désigne « le chat », le modèle doit attribuer un score d’attention élevé entre ces deux tokens, même s’ils sont éloignés dans la phrase. Ce calcul se répète pour chaque paire de tokens, à travers des dizaines de couches empilées. Résultat : la complexité computationnelle grimpe avec le carré du nombre de tokens. Doubler la longueur du contexte quadruple le coût de calcul de l’attention.

C’est cette croissance quadratique qui rend les longues conversations si coûteuses et si fragiles. Avec 100 000 tokens en entrée, le modèle doit évaluer des milliards de paires token-token. Les scores d’attention se diluent mécaniquement : chaque token reçoit, en moyenne, un poids plus faible. Les informations critiques perdues au milieu de la conversation deviennent, au sens mathématique, presque invisibles.

Quatre comportements qui trahissent la perte de fil

L’étude de Laban et son équipe, menée sur 15 modèles et plus de 200 000 conversations simulées, identifie quatre schémas récurrents. Premier réflexe : le modèle se précipite vers une réponse avant d’avoir reçu toutes les informations, comme un élève qui commence à rédiger sans lire l’énoncé en entier. Deuxième défaut : il s’accroche à ses propres réponses précédentes, même quand l’utilisateur les corrige. Troisième problème, directement lié au biais de position : les détails fournis au milieu de l’échange passent à la trappe. Quatrième travers : faute d’informations solides, il comble les trous avec des suppositions présentées comme des certitudes.

Les chercheurs ont mesuré que la compétence brute ne recule « que » de 16 %, mais la fiabilité s’effondre : l’inconsistance des réponses bondit de 112 %. Sur une même tâche, l’écart entre la meilleure et la pire réponse peut atteindre 50 points de pourcentage, selon MarkTechPost.

Les solutions tentées (et celles qui marchent)

Baisser la température du modèle, le paramètre qui contrôle l’aléatoire des réponses ? Aucun effet mesurable, selon les tests de Salesforce Research. Faire répéter les instructions par un agent intermédiaire ? Pareil. Varier la quantité de détails envoyés à chaque tour ? Toujours pas.

Les pistes les plus prometteuses viennent de l’architecture elle-même. Des techniques comme la Rotary Position Embedding (RoPE), utilisée par Meta dans Llama 3, permettent d’étendre la fenêtre de contexte sans tout recalculer. Google a développé une approche hybride pour Gemini, combinant attention locale (sur les tokens proches) et attention globale (sur des résumés de blocs plus anciens), d’après un article technique de Google DeepMind publié en 2024. Des chercheurs travaillent aussi sur des systèmes de mémoire externe, où le modèle stocke et récupère des informations dans une base de données séparée, une approche baptisée RAG (Retrieval-Augmented Generation) popularisée par Meta AI dès 2020.

Côté utilisateur, la seule méthode fiable reste la plus simple : donner toutes les informations dans un seul message, ou relancer une conversation neuve en faisant résumer les échanges précédents. The Decoder recommande de demander au modèle de synthétiser toutes les demandes accumulées, puis d’utiliser ce résumé comme point de départ d’un nouveau chat.

Pourquoi ça compte pour la suite

La course aux fenêtres de contexte géantes continue. Google annonce travailler sur des contextes de 10 millions de tokens. OpenAI pousse GPT-5 vers des fenêtres toujours plus larges. Mais la question n’est plus de savoir combien de tokens un modèle peut avaler : c’est de savoir combien il peut réellement exploiter sans perdre le fil.

Les agents IA, ces systèmes autonomes qui enchaînent des dizaines d’actions sans intervention humaine, dépendent directement de cette capacité. Un agent qui perd 33 % de précision au bout de quelques échanges ne peut pas piloter un processus métier de bout en bout. Tant que le problème de la dégradation multi-tours n’est pas résolu, la promesse d’une IA vraiment autonome reste en suspens. La prochaine génération de modèles, attendue courant 2026, devra prouver qu’elle sait non seulement lire, mais aussi se souvenir.