Quatre millions d’utilisateurs payants au lancement, moins d’un million quelques mois plus tard. ChatGPT Agent, le produit phare d’OpenAI censé automatiser vos tâches dans un navigateur, a perdu les trois quarts de son audience selon The Information. Au même moment, Google démantèle l’équipe derrière Project Mariner, son propre agent navigateur. Le constat est brutal : l’IA qui devait cliquer, scroller et remplir des formulaires à votre place n’intéresse plus personne.

Pourquoi les LLM détestent les navigateurs

Le principe d’un agent navigateur est séduisant sur le papier. Vous lui demandez de réserver un vol ou de comparer des assurances, et il ouvre un navigateur virtuel, capture des images de l’écran, les analyse et décide quoi cliquer. Le problème, c’est que cette approche est un gouffre de ressources et de temps.

Kian Katanforoosh, directeur de la plateforme d’apprentissage IA Workera et enseignant à Stanford, résume le problème en une phrase : « Ce que Claude Code et OpenClaw ont montré, c’est qu’il est bien plus efficace de travailler avec le terminal, parce que le terminal est textuel et que les LLM sont textuels. C’est probablement 10 à 100 fois moins d’étapes pour arriver au même résultat. »

Chaque clic dans un navigateur génère une nouvelle capture d’écran que le modèle doit traiter. Chaque page chargée produit un rendu visuel complexe, avec des menus, des publicités, des pop-ups de cookies et des layouts responsifs que l’IA interprète mal ou trop lentement. Le terminal, lui, renvoie du texte brut. C’est la langue maternelle des modèles de langage.

Les chiffres d’un naufrage collectif

Le problème ne touche pas qu’OpenAI. Perplexity, qui avait misé gros sur son agent navigateur Comet, plafonne à 2,8 millions d’utilisateurs hebdomadaires selon Wired. Rapporté aux centaines de millions de personnes qui discutent avec ChatGPT chaque semaine, l’usage des agents navigateur relève de l’erreur d’arrondi.

Google a tiré les conséquences en premier. Plusieurs membres de l’équipe Google Labs qui travaillaient sur Project Mariner, le prototype d’agent Chrome présenté par Sundar Pichai lors de la conférence I/O l’an dernier, ont été réaffectés à d’autres projets jugés prioritaires. Un porte-parole de Google a confirmé les départs à Wired, en précisant que les technologies développées seraient « intégrées dans la stratégie agent de l’entreprise ». La formule diplomatique habituelle pour dire qu’un projet est enterré sans que le communiqué de presse ne prononce le mot.

OpenAI, de son côté, a cessé de promouvoir ChatGPT Agent comme produit phare. The Information rapporte que les utilisateurs « ne savaient pas quoi en faire ou ignoraient son existence ». La vitesse d’exécution, la fiabilité et les risques de sécurité ont achevé de décourager les premiers adoptants. La société mise désormais sur des agents spécialisés, comme son outil de recherche shopping, dont le périmètre étroit le rend plus fiable et plus compréhensible.

Le terminal a gagné la guerre en silence

Pendant que les agents navigateur s’effondraient, un autre type d’agent explosait. Claude Code, l’outil de programmation d’Anthropic, et OpenClaw, l’agent open source embauché par OpenAI, sont devenus les nouvelles stars de la Silicon Valley. Jensen Huang, le patron de Nvidia, a comparé OpenClaw à un nouveau système d’exploitation lors de la conférence GTC cette semaine. « Chaque entreprise dans le monde a besoin aujourd’hui d’une stratégie OpenClaw », a-t-il déclaré.

Ces agents ne naviguent pas sur des pages web. Ils travaillent dans le terminal, manipulent des fichiers, exécutent du code, appellent des API. Et contrairement aux agents navigateur, ils ne se limitent pas à la programmation. Un utilisateur peut charger ses relevés bancaires dans un agent code et lui demander de créer un tableau de bord personnalisé pour analyser ses dépenses. Pas besoin de navigateur, pas besoin de captures d’écran. Le texte suffit.

Les grandes entreprises de l’IA ont compris le message et réorientent leurs produits. OpenAI veut que Codex, sa plateforme de code, devienne le moteur d’agents polyvalents dans ChatGPT. Anthropic a lancé Claude Cowork, une version de Claude Code qui ne nécessite pas de terminal et cible les non-développeurs. Perplexity, qui avait tout misé sur les agents navigateur, a lancé un produit concurrent baptisé « Personal Computer ».

Le dernier argument des irréductibles

Tout le monde n’enterre pas les agents navigateur. Ang Li, patron de la startup Simular et ancien chercheur chez Google DeepMind, défend l’idée d’une complémentarité : « Je vois toujours une répartition 80/20. Le terminal résout déjà beaucoup de problèmes, mais il y aura toujours des tâches qui nécessitent l’interface graphique. Si vous voulez aller sur le site d’une assurance santé ou sur un vieux logiciel d’entreprise, ils n’ont souvent pas d’API qu’un agent terminal peut appeler. »

La startup Standard Intelligence a pris un angle différent : au lieu de traiter des captures d’écran une par une, elle a entraîné un modèle sur de la vidéo. Son encodeur vidéo compresse les images dans la fenêtre de contexte du modèle avec une efficacité revendiquée de 50 fois supérieure aux approches classiques. Pour prouver le concept, l’entreprise a connecté son modèle à une voiture et l’a brièvement fait conduire dans San Francisco à partir d’un flux vidéo en direct et d’un clavier.

Mais ces avancées restent marginales face à la dynamique du marché. Quand Jensen Huang consacre sa keynote aux agents code et que Google réaffecte ses ingénieurs navigateur, le signal est clair. L’IA qui devait remplacer vos clics dans Chrome n’a pas trouvé son public. La prochaine génération d’assistants IA ne regardera pas votre écran. Elle tapera directement dans la machine.