Deux jours après GPT-5.3 Instant, OpenAI dégaine un modèle qui combine pour la première fois raisonnement, programmation et prise en main d’un bureau informatique. Les benchmarks affichent des scores supérieurs à ceux de testeurs humains.

Un modèle, trois cerveaux

Jeudi 5 mars, OpenAI a mis en ligne GPT-5.4, décliné en deux versions : Thinking, accessible aux abonnés ChatGPT Plus (20 dollars par mois), et Pro, réservé aux forfaits Pro (200 dollars) et Enterprise. Les utilisateurs gratuits pourront y accéder ponctuellement, quand le système redirigera automatiquement leurs requêtes vers ce modèle, a précisé un porte-parole de l’entreprise à VentureBeat.

La particularité de GPT-5.4 tient en une phrase : c’est le premier modèle généraliste d’OpenAI qui fusionne les capacités de programmation héritées de GPT-5.3 Codex, le raisonnement avancé de la lignée GPT-5.2, et un mode de contrôle d’ordinateur natif. Concrètement, le modèle peut rédiger du code, naviguer dans un navigateur web, cliquer sur des boutons, remplir des formulaires et enchaîner ces actions sans intervention humaine. OpenAI le présente comme son « modèle frontière le plus performant pour le travail professionnel ».

La fenêtre de contexte grimpe à un million de tokens via l’API et Codex, ce qui permet aux agents logiciels de planifier, exécuter et vérifier des tâches sur de longues séquences. Au-delà de 272 000 tokens, le tarif double, précise la documentation technique.

75 % de réussite là où les humains plafonnent à 72 %

C’est le chiffre qui retient l’attention. Sur le benchmark OSWorld Verified, qui mesure la capacité d’un modèle à naviguer dans un environnement de bureau (clics, saisies clavier, captures d’écran), GPT-5.4 atteint 75 % de réussite. Le groupe de référence humain s’arrête à 72,4 %. Son prédécesseur, GPT-5.2, plafonnait à 47,3 %, selon les données publiées par OpenAI. C’est la première fois qu’un modèle de langage dépasse des opérateurs humains sur ce type de test.

Les progrès ne s’arrêtent pas là. Sur GDPval, un benchmark interne qui évalue la production de documents professionnels à travers 44 métiers (comptables, analystes financiers, médecins urgentistes, ingénieurs), GPT-5.4 égale ou surpasse les professionnels du secteur dans 83 % des comparaisons. GPT-5.2 atteignait 70,9 %. Les gains les plus spectaculaires concernent les tableurs : sur des tâches de modélisation financière typiques d’un analyste junior en banque d’investissement, le score passe de 68,4 % à 87,3 %, rapporte The Decoder.

Sur le raisonnement abstrait, le bond est encore plus marqué. GPT-5.4 Pro obtient 83,3 % sur ARC-AGI-2, un test de raisonnement par analogie visuelle, contre 54,2 % pour GPT-5.2 Pro. Noam Brown, chercheur clé derrière les modèles de raisonnement d’OpenAI, a commenté sur X : « Nous ne voyons aucun mur, et nous nous attendons à ce que les capacités de l’IA continuent d’augmenter fortement cette année. »

Moins de tokens, moins d’erreurs

L’autre avancée majeure est technique et concerne directement le portefeuille des développeurs. GPT-5.4 introduit « Tool Search », un mécanisme qui évite de charger toutes les définitions d’outils dans le prompt. Le modèle reçoit une liste légère des outils disponibles et ne récupère les spécifications complètes qu’à la demande. Résultat : une baisse de 47 % de la consommation de tokens lors d’un test avec 250 tâches, selon OpenAI. Pour les entreprises qui connectent des dizaines de services via le protocole MCP, la facture API s’allège considérablement.

Côté fiabilité, OpenAI annonce que les affirmations individuelles de GPT-5.4 ont 33 % moins de chances d’être fausses que celles de GPT-5.2. Les réponses complètes contenant au moins une erreur factuelle baissent de 18 %. Un progrès notable, même si les hallucinations restent un problème structurel des modèles de langage.

Le code progresse, mais sans révolution

Sur le front de la programmation, les gains sont plus modestes. GPT-5.4 obtient 57,7 % sur SWE-Bench Pro, un benchmark de résolution de bugs dans des projets logiciels réels, contre 56,8 % pour GPT-5.3 Codex et 55,6 % pour GPT-5.2. La vraie différence se joue sur la vitesse : un nouveau mode « /fast » dans Codex accélère le débit de tokens de 50 % sans sacrifier la qualité, d’après VentureBeat.

La recherche web agentique progresse plus nettement. Sur BrowseComp, qui mesure la capacité d’un agent à dénicher des informations difficiles à trouver sur le web, GPT-5.4 atteint 82,7 % contre 65,8 % pour GPT-5.2. La version Pro monte à 89,3 %.

Excel et Sheets : l’IA entre dans les cellules

OpenAI a profité du lancement pour déployer un complément ChatGPT pour Microsoft Excel, destiné aux clients entreprise. Le module permet d’insérer GPT-5.4 directement dans les cellules d’un tableur pour automatiser des analyses, générer des formules et traiter des données. Anthropic avait lancé une offre similaire avec Claude quelques semaines plus tôt, signe que la bataille pour le marché du travail de bureau s’intensifie.

Cette offensive vers les outils bureautiques accompagne un changement de positionnement. GPT-5.4 n’est plus vendu comme un chatbot polyvalent, mais comme un collègue numérique capable de produire des présentations, des tableaux financiers et des comptes rendus. Les évaluateurs humains ont préféré les présentations générées par GPT-5.4 dans 68 % des cas, citant une meilleure esthétique et une plus grande variété visuelle.

La cadence s’accélère, les concurrents observent

Le rythme de publication d’OpenAI donne le vertige. GPT-5.3 Instant est sorti mardi, GPT-5.4 arrive jeudi. L’entreprise a précisé que les lignes Instant (modèle de conversation par défaut) et Thinking (raisonnement avancé) évolueront désormais à des vitesses différentes.

Google a riposté récemment avec Gemini 3.1 Pro, tandis qu’Anthropic pousse Claude dans les entreprises via son application Cowork. La guerre des modèles frontières ne faiblit pas, et le prochain terrain de jeu semble tout trouvé : le contrôle autonome des logiciels de bureau, là où GPT-5.4 vient de prendre une longueur d’avance. Les premières intégrations en entreprise donneront le verdict dans les prochains mois.