Précision de 90 % sur une question simple, 51 % dès que l’échange s’étire sur plusieurs messages. C’est le constat dressé par une équipe de chercheurs de Salesforce Research et Microsoft Research, qui ont passé au crible 15 modèles de langage sur plus de 200 000 conversations simulées. Leur conclusion, publiée en mai 2025 puis actualisée fin février 2026 avec les dernières générations de modèles, y compris GPT-5 : les chatbots perdent la boussole quand on leur parle trop longtemps.

De 90 % à 51 % : la chute libre documentée

Le chercheur Philippe Laban et son équipe ont mis au point une méthode baptisée « sharding ». Le principe : au lieu de donner toutes les informations d’un coup à un modèle, ils les découpent en petits morceaux envoyés message après message, comme le ferait un utilisateur normal qui précise sa demande au fil de la conversation. Six types de tâches ont été testés : code Python, requêtes SQL, actions via API, problèmes mathématiques, génération de texte à partir de données et résumé de documents.

Résultat : la performance moyenne dégringole de 39 % quand les instructions sont fragmentées plutôt que livrées en bloc. Ce chiffre, rapporté par MarkTechPost dès la première publication de l’étude, concerne les 15 modèles testés, du petit Llama-3.1-8B aux poids lourds comme GPT-4o. Même les meilleurs élèves de l’époque, Claude 3.7 Sonnet, Gemini 2.5 Pro et GPT-4.1, perdaient entre 30 et 40 % de leur précision dès qu’ils devaient gérer plusieurs tours de conversation.

GPT-5 améliore la note, pas le problème

La mise à jour de février 2026, relayée par The Decoder, apporte une nuance : les modèles de dernière génération s’en sortent un peu mieux. La dégradation passe de 39 % à 33 %. Les progrès les plus nets apparaissent sur les tâches Python, où certains modèles ne perdent plus que 10 à 20 % de leur précision. Mais le problème reste entier sur les autres types de tâches. Selon Philippe Laban, les pertes en conditions réelles pourraient être encore plus sévères, puisque les simulations utilisaient des utilisateurs artificiels bien plus prévisibles qu’un humain qui change d’avis en plein échange.

L’étude, disponible sur arXiv sous la référence 2505.06120, identifie quatre comportements récurrents chez les modèles défaillants. Premier réflexe : ils se précipitent vers une réponse sans attendre d’avoir toutes les informations. Deuxième problème : ils s’accrochent à leurs propres réponses précédentes, même fausses. Troisième défaut : ils négligent les informations situées au milieu de la conversation, un phénomène déjà connu sous le nom de « lost in the middle ». Enfin, ils produisent des réponses trop détaillées, comblant les trous avec des suppositions erronées.

Baisser la température ne change rien

Face à ce constat, les chercheurs ont tenté plusieurs correctifs techniques. Baisser la température du modèle (le paramètre qui contrôle l’aléatoire des réponses), faire répéter les instructions par un agent intermédiaire, varier la quantité de détails donnés à chaque tour : aucune de ces approches n’a produit d’amélioration mesurable, selon MarkTechPost. La seule méthode qui fonctionne de manière fiable reste la plus radicale : tout donner dès le départ dans un seul message.

L’analyse distingue deux composantes dans la perte de qualité. La compétence brute (« aptitude ») recule de 16 %, une baisse modérée. En revanche, la fiabilité s’effondre : l’inconsistance des réponses bondit de 112 %. Sur une même tâche, l’écart entre le meilleur et le pire résultat peut atteindre 50 points de pourcentage. Un modèle qui répond parfaitement à une question en un seul message peut se tromper complètement sur la même question posée en cinq messages successifs.

Le seul conseil qui marche : recommencer à zéro

Les auteurs de l’étude formulent deux recommandations pratiques. La première : quand un échange tourne en rond, mieux vaut ouvrir une nouvelle conversation. The Decoder suggère même de demander d’abord au modèle de résumer toutes les demandes accumulées, puis d’utiliser ce résumé comme point de départ dans un nouveau fil. La seconde : regrouper autant d’informations que possible dans le premier message, plutôt que de distiller les détails au compte-gouttes.

Ce conseil peut sembler contre-intuitif. Les interfaces de ChatGPT, Claude ou Gemini sont conçues comme des messageries, invitant naturellement à un échange progressif. Pourtant, ces modèles restent plus performants quand on les traite comme un formulaire que comme un interlocuteur. L’écart entre la promesse conversationnelle et la réalité technique persiste, y compris chez les modèles les plus récents.

Un défi pour les agents IA autonomes

Le phénomène ne concerne pas seulement les utilisateurs qui discutent avec un chatbot. Il touche aussi directement les agents IA autonomes, ces systèmes qui enchaînent des dizaines de tours de conversation avec eux-mêmes pour résoudre des tâches complexes. Si la fiabilité chute après quelques échanges, les architectures agentiques qui reposent sur de longues chaînes d’instructions doivent composer avec un risque d’erreur cumulatif. La startup Nous Research a d’ailleurs présenté fin février son « Hermes Agent », un système doté de mémoire persistante sur plusieurs niveaux, conçu précisément pour contourner cette perte de contexte, comme le rapporte MarkTechPost.

La prochaine étape de la recherche de Laban et son équipe devrait tester des scénarios encore plus réalistes, avec des utilisateurs humains qui changent d’avis, se contredisent ou reformulent leurs demandes. Si les modèles perdent déjà 33 % de précision face à des utilisateurs simulés et prévisibles, les résultats en conditions réelles pourraient réserver quelques surprises.