Un score de 75 % sur un test de navigation informatique. Les humains qui ont passé le même examen ont atteint 72,4 %. Jeudi 5 mars, OpenAI a mis en ligne GPT-5.4, un modèle d’intelligence artificielle qui pilote pour la première fois un ordinateur de bureau avec une fiabilité supérieure à celle d’un utilisateur moyen. Le logiciel clique, tape au clavier, ouvre des applications, remplit des formulaires et enchaîne les tâches complexes sur un poste de travail virtuel, le tout sans intervention humaine.

Le premier modèle qui code, raisonne et clique

GPT-5.4 n’est pas un simple chatbot amélioré. OpenAI le présente comme le premier modèle généraliste à intégrer en natif le contrôle d’ordinateur, les capacités de programmation héritées de GPT-5.3 Codex et le raisonnement avancé de la série 5.x. Jusqu’ici, ces fonctions existaient séparément : un modèle pour coder, un autre pour raisonner, un troisième pour manipuler une interface graphique. GPT-5.4 fait tout en même temps. Le modèle se décline en deux versions. GPT-5.4 Thinking, accessible dans ChatGPT, affiche un aperçu de son plan de réflexion avant de répondre. L’utilisateur peut corriger la trajectoire en cours de route, sans attendre la réponse complète. GPT-5.4 Pro, réservé aux tâches les plus lourdes, pousse les performances au maximum sur les problèmes nécessitant un raisonnement prolongé. Côté développeurs, le modèle accepte jusqu’à un million de jetons de contexte et intègre une fonction baptisée Tool Search : au lieu de charger toutes les définitions d’outils dans la requête, GPT-5.4 consulte un index léger et ne récupère que ceux dont il a besoin. Résultat : une consommation de jetons réduite de 47 % lors d’un test avec 250 tâches, selon OpenAI.

44 métiers passés au crible, 83 % de réussite

Le chiffre le plus frappant vient du benchmark GDPval, un test maison d’OpenAI qui évalue la capacité d’un agent IA à produire le travail attendu dans 44 professions, de l’analyste financier au médecin urgentiste en passant par le graphiste. GPT-5.4 égale ou dépasse les professionnels dans 83 % des cas, contre 70,9 % pour GPT-5.2, la version précédente. Les gains les plus spectaculaires concernent la bureautique. Sur des exercices de modélisation financière dans Excel, du type de ceux que réalise un analyste junior en banque d’investissement, le modèle obtient 87,3 %, contre 68,4 % pour son prédécesseur. Pour les présentations, des évaluateurs humains ont préféré les diapositives produites par GPT-5.4 dans 68 % des comparaisons, saluant « une meilleure esthétique et une plus grande variété visuelle », selon le blog d’OpenAI. Sur le terrain du raisonnement abstrait, GPT-5.4 Pro atteint 83,3 % au test ARC-AGI-2, un exercice de logique visuelle considéré comme l’un des plus exigeants du domaine. GPT-5.2 Pro plafonnait à 54,2 %. Le bond est massif.

Un PC virtuel sous contrôle total

Le test OSWorld mesure la capacité d’un agent à naviguer dans un environnement de bureau complet : ouvrir un logiciel, remplir un champ, cliquer sur un bouton, enchaîner plusieurs étapes pour accomplir une tâche. GPT-5.4 y obtient 75 %, un score qui dépasse celui d’un groupe de comparaison humain (72,4 %). Son prédécesseur GPT-5.2 ne dépassait pas 47,3 %, un quasi-doublement en quelques mois. La navigation web progresse aussi. Sur le benchmark BrowseComp, qui évalue la recherche d’informations difficiles à trouver sur internet, GPT-5.4 Pro grimpe à 89,3 %, contre 65,8 % pour GPT-5.2. The Decoder souligne que la perception visuelle améliorée y contribue : un nouveau mode de traitement d’image gère des résolutions allant jusqu’à 10,24 millions de pixels, ce qui améliore la lecture de documents numérisés et de captures d’écran. Les hallucinations, ce fléau des grands modèles de langage, reculent aussi. Chaque affirmation produite par GPT-5.4 a 33 % de chances en moins d’être fausse par rapport à GPT-5.2, et les réponses complètes contiennent 18 % d’erreurs en moins.

Le code progresse, mais pas autant

Tous les indicateurs ne s’envolent pas. En programmation pure, GPT-5.4 obtient 57,7 % sur SWE-Bench Pro, un benchmark qui soumet au modèle de vrais bugs à corriger dans des projets open source. GPT-5.3 Codex faisait 56,8 %, GPT-5.2 atteignait 55,6 %. La progression existe, mais elle reste modeste. Le vrai gain pour les développeurs se situe du côté de la vitesse : un mode « /fast » dans Codex accélère la génération de jetons de 50 % sans sacrifier la qualité, d’après OpenAI. Noam Brown, chercheur d’OpenAI et figure clé derrière les modèles de raisonnement de l’entreprise, a commenté la sortie sur X : « Nous ne voyons aucun mur, et nous nous attendons à ce que les capacités de l’IA continuent d’augmenter de façon spectaculaire cette année. » Le message s’adresse autant à la communauté scientifique qu’aux concurrents. Google a sorti Gemini 3.1 Pro il y a quelques semaines, Anthropic vient d’annoncer que Claude gagne plus d’un million de nouveaux utilisateurs par jour, selon The Decoder.

Le tableur, nouveau champ de bataille

OpenAI a aussi lancé un module complémentaire ChatGPT pour Excel, destiné aux entreprises. Le positionnement est clair : GPT-5.4 ne vise plus seulement les développeurs et les chercheurs. Il cible le travail de bureau quotidien, les tableaux croisés dynamiques, les modèles financiers, les présentations clients. Le terrain de jeu de Microsoft Copilot, en somme, mais avec un modèle nettement plus puissant. La guerre des agents IA s’accélère. Google pousse son Workspace CLI pour connecter Gmail, Docs et Sheets aux agents IA. Anthropic muscle sa distribution grand public. OpenAI riposte en transformant ChatGPT en employé de bureau virtuel capable de manipuler n’importe quel logiciel. La prochaine étape se joue sur la fiabilité en conditions réelles : les benchmarks mesurent des tâches contrôlées, pas les imprévus d’un poste de travail en entreprise. Les premiers retours d’utilisateurs devraient tomber dans les jours qui viennent.