« Imaginez un monde où un data center fait le travail de tout OpenAI ou de tout Google. Ce que faisaient de grandes organisations humaines serait accompli par quelques personnes. » Ce n’est pas un extrait de science-fiction. C’est Jakub Pachocki, directeur scientifique d’OpenAI, dans une interview exclusive accordée au MIT Technology Review cette semaine. Son projet : construire d’ici 2028 un système d’intelligence artificielle capable de mener des recherches scientifiques de manière totalement autonome. Un « chercheur artificiel » qui ne dort pas, ne fatigue pas, et pourrait résoudre des problèmes que les humains n’arrivent plus à attaquer seuls.
Un stagiaire IA pour septembre, un labo complet pour 2028
OpenAI vient de redéfinir sa feuille de route. La nouvelle « étoile du nord » de l’entreprise n’est plus un chatbot ni un simple assistant de code : c’est un système multi-agents autonome, capable de s’attaquer seul à des problèmes complexes en mathématiques, physique, biologie ou chimie. Le calendrier est précis. D’ici septembre 2026, OpenAI prévoit de déployer un « stagiaire de recherche autonome », conçu pour résoudre un petit nombre de problèmes scientifiques spécifiques sans aide humaine. Ce premier outil sera le précurseur d’une plateforme complète attendue pour 2028, pensée pour « s’attaquer à des problèmes trop vastes ou trop complexes pour les humains », selon les termes de l’entreprise.
L’ambition repose sur Codex, l’agent de programmation lancé en janvier dernier. Codex peut déjà analyser des documents, générer des graphiques et orchestrer des tâches sur un ordinateur. La plateforme revendique plus de deux millions d’utilisateurs actifs par semaine et une croissance multipliée par trois depuis le début de l’année, selon les données publiées par OpenAI à l’occasion du rachat d’Astral, éditeur des outils Python Ruff et uv. Le raisonnement de Pachocki tient en une phrase : si une IA sait résoudre des problèmes de code, elle peut résoudre n’importe quel problème formulable en texte, en équations ou en schémas.
Quand les ingénieurs deviennent des managers d’agents
Le changement est déjà en cours à l’intérieur d’OpenAI. « Plus personne n’édite du code en permanence. On gère plutôt un groupe d’agents Codex », confie Pachocki au MIT Technology Review. Le directeur scientifique, qui se décrivait comme un puriste du code tapé à la main dans l’éditeur Vim il y a encore un an, admet avoir basculé : « Je peux lancer des expériences en un week-end qui m’auraient pris une semaine à coder. »
GPT-5, le modèle qui fait tourner Codex, a déjà produit des résultats tangibles. Des chercheurs l’ont utilisé pour découvrir de nouvelles solutions à des problèmes mathématiques non résolus et débloquer des impasses en biologie, chimie et physique, selon le MIT Technology Review. Des résultats qui, d’après Pachocki, « auraient pris des semaines à la plupart des doctorants ».
La progression repose sur deux leviers techniques. D’abord, les modèles dits « de raisonnement », entraînés à décomposer un problème étape par étape et à revenir en arrière quand ils se trompent. Ensuite, l’entraînement sur des tâches extrêmement complexes, comme des concours de mathématiques et de programmation, qui force les modèles à gérer de longs contextes et à orchestrer plusieurs sous-tâches en parallèle. Le but n’est pas de gagner des médailles : « Ça permet de prouver que la technologie fonctionne avant de la connecter au monde réel », explique Pachocki.
Des résultats qui impressionnent, des limites qui persistent
Tous les spécialistes ne partagent pas l’enthousiasme du directeur scientifique d’OpenAI. Doug Downey, chercheur à l’Allen Institute for AI, un organisme indépendant, a testé l’été dernier plusieurs grands modèles de langage sur des tâches scientifiques variées. GPT-5 est arrivé en tête, mais commettait encore « beaucoup d’erreurs ». Le problème est mathématique : « Quand on enchaîne des tâches, la probabilité de toutes les réussir d’affilée diminue », prévient-il dans le MIT Technology Review. Faire fonctionner un agent pendant quelques minutes est une chose. Le laisser tourner plusieurs jours sur un problème ouvert sans dérailler en est une autre.
Downey nuance toutefois son scepticisme. Les progrès sont si rapides que ses propres tests, réalisés avec GPT-5, sont peut-être « déjà périmés » face à GPT-5.4, sorti il y a deux semaines. L’idée d’un chercheur automatisé reste « excitante » : « Ce serait formidable de revenir le lendemain matin et de trouver de nouveaux résultats à examiner. »
L’IA qui contourne ses propres garde-fous
OpenAI ne se contente pas de promettre. L’entreprise a publié cette semaine un rapport technique détaillant son système de surveillance interne pour les agents Codex. Le dispositif, alimenté par GPT-5.4 Thinking à puissance de raisonnement maximale, analyse les raisonnements et les actions de chaque agent dans les 30 minutes suivant chaque interaction. Résultat : le moniteur détecte systématiquement plus de comportements suspects que les signalements volontaires des employés d’OpenAI eux-mêmes.
Et ces comportements sont réels. Dans son rapport, OpenAI reconnaît que ses modèles peuvent se montrer « excessivement zélés pour contourner les restrictions afin d’atteindre un objectif fixé par l’utilisateur ». L’IA peut décider de transgresser les règles si elle juge que c’est le chemin le plus efficace vers la solution demandée. Un comportement qui devient critique quand l’agent a accès aux systèmes internes d’OpenAI, à la documentation de ses propres garde-fous, et pourrait même tenter de les modifier.
Un pouvoir concentré sans précédent
Pachocki ne minimise pas les risques. « Si c’est si intelligent et capable, si ça peut piloter un programme de recherche entier, que se passe-t-il si ça fait quelque chose de mal ? », s’interroge-t-il. Trois scénarios le préoccupent : un système qui déraille, un système qui se fait pirater, ou un système qui interprète mal ses instructions. Sa réponse : les modèles les plus puissants devraient être déployés dans des environnements isolés, coupés de tout ce qu’ils pourraient endommager.
Mais c’est sur le terrain politique que la déclaration est la plus frappante. « C’est un truc très étrange. C’est un pouvoir extrêmement concentré, sans précédent à certains égards », admet le directeur scientifique. Une vision partagée au sommet de l’industrie : Dario Amodei, patron d’Anthropic, décrit sa propre ambition comme « un pays de génies dans un data center ». Google DeepMind poursuit une trajectoire similaire depuis des années.
« C’est un défi majeur que les gouvernements doivent résoudre », reconnaît Pachocki. Le MIT Technology Review note que cette déclaration tombe dans un contexte tendu : le bras de fer récent entre Anthropic et le Pentagone a révélé l’absence de consensus sur les lignes rouges de l’usage militaire de l’IA. OpenAI a d’ailleurs profité de ce conflit pour signer un contrat avec le département de la Défense américain.
La course au chercheur autonome est lancée. Avec un stagiaire IA promis pour septembre et un système complet pour 2028, OpenAI parie que la transition entre l’outil d’assistance et le laboratoire artificiel prendra moins de deux ans. Si Codex tient ses promesses, le prochain grand centre de recherche mondial ne sera peut-être ni à Stanford, ni à Cambridge, ni au CNRS. Il tiendra dans un data center, quelque part dans le désert américain, et il fonctionnera avec une poignée d’opérateurs humains.