Cinq à dix mathématiciens de haut niveau avaient sérieusement tenté de résoudre ce problème. Selon l’auteur du défi, un expert aurait eu besoin d’un à trois mois de travail concentré pour y parvenir. GPT-5.4 Pro l’a fait en une seule conversation.
Epoch AI, l’institut de recherche spécialisé dans le suivi des capacités de l’intelligence artificielle, vient de confirmer qu’un modèle de langage a résolu pour la première fois un problème mathématique ouvert issu de son benchmark FrontierMath. Le problème en question porte sur la théorie de Ramsey appliquée aux hypergraphes, un domaine de la combinatoire où même les spécialistes peinent à progresser. Et la solution ne vient pas d’un laboratoire universitaire, mais d’un chatbot.
Un problème que les spécialistes n’avaient pas cracké
Pour comprendre ce qui s’est passé, un peu de contexte. FrontierMath est un benchmark créé par Epoch AI fin 2024, conçu spécifiquement pour tester les limites des IA en mathématiques de recherche. Pas des exercices de licence, pas des problèmes d’olympiades : des questions ouvertes, sans solution connue, posées par des mathématiciens en activité. Lors de son lancement, le célèbre mathématicien Terence Tao avait qualifié ces problèmes d’« extrêmement difficiles », estimant que la plupart résisteraient aux IA « pendant un bon moment ».
Le benchmark compte aujourd’hui 15 problèmes ouverts répartis en quatre niveaux de difficulté, du « modérément intéressant » au « percée majeure ». Le problème résolu par GPT-5.4 Pro appartient à la première catégorie. Concrètement, il s’agissait d’améliorer les bornes inférieures connues d’une séquence, notée H(n), qui apparaît dans l’étude de la convergence simultanée de séries infinies. En termes plus simples : construire des structures mathématiques (des hypergraphes) aussi grandes que possible tout en respectant certaines contraintes de partition. Le genre de problème où l’intuition humaine peine à trouver des constructions optimales.
La preuve que le mathématicien n’attendait pas
La solution a été obtenue par Kevin Barreto et Liam Price, deux utilisateurs qui ont guidé GPT-5.4 Pro vers la réponse via le programme FrontierMath d’Epoch AI. L’IA n’a pas simplement recraché une formule : elle a produit un algorithme original, vérifié par un script automatique, puis soumis à Will Brian, le mathématicien de l’université de Caroline du Nord à Charlotte qui avait posé le problème.
Sa réaction, publiée sur la page du problème, en dit long. « C’est une solution passionnante à un problème que je trouve très intéressant », écrit Brian. « J’avais envisagé que l’approche de l’IA puisse fonctionner, mais elle semblait difficile à mettre en œuvre. Maintenant je constate que ça marche parfaitement. » Plus révélateur encore : Brian note que la solution « élimine une inefficacité dans notre construction de borne inférieure » et « reflète en quelque sorte la complexité de notre construction de borne supérieure ». En clair, l’IA a trouvé une voie que les humains soupçonnaient sans parvenir à l’emprunter.
Brian prévoit désormais de publier la solution dans une revue spécialisée, possiblement accompagnée de travaux de suivi inspirés par les idées de l’IA. Barreto et Price auront la possibilité d’être coauteurs des articles qui en découleront.
Trois modèles, un seul problème résolu
Détail important : GPT-5.4 Pro n’est pas le seul modèle à avoir cracké ce problème. Après la résolution initiale, Epoch AI a testé d’autres IA via un cadre d’évaluation standardisé. Résultat : Claude Opus 4.6 d’Anthropic, Gemini 3.1 Pro de Google et une autre version de GPT-5.4 (en mode « xhigh ») ont également trouvé la solution. Les transcriptions complètes de chaque conversation sont publiées en libre accès sur le site d’Epoch AI.
Cela suggère que la difficulté du problème se situe désormais dans la zone de compétence partagée des grands modèles de langage les plus avancés. Mais le tableau d’ensemble reste sobre : sur les 15 problèmes ouverts de FrontierMath, un seul a été résolu. Les 14 autres, classés « résultat solide », « avancée majeure » ou « percée », résistent toujours. Aucun modèle n’a ne serait-ce qu’approché une solution sur les problèmes de niveau supérieur.
Ce que ça change (et ce que ça ne change pas)
La communauté scientifique réagit avec un mélange de fascination et de prudence. Sur Hacker News, où la nouvelle a rapidement grimpé en une, les débats portent moins sur l’exploit lui-même que sur ce qu’il signifie. Un commentateur note avec humour qu’Opus 4.6 a consommé environ 250 000 tokens pour résoudre le problème, « ce qui signifie qu’un refactoring React compliqué que j’ai fait aujourd’hui au boulot était à peu près moitié aussi difficile qu’un problème ouvert en mathématiques ».
Derrière l’ironie, la question de fond est sérieuse. L’évaluation du mathématicien qui a posé le problème indique que la solution serait publiable dans « une revue de spécialité standard » et qu’elle a de bonnes chances de « générer de nouvelles mathématiques intéressantes ». Ce n’est pas la conjecture de Riemann, mais ce n’est pas non plus un exercice de premier cycle. C’est une contribution de recherche authentique, validée par un pair, qui va donner lieu à une publication académique.
La nuance est dans l’échelle. Le problème résolu est classé « modérément intéressant », le premier niveau de notabilité sur quatre. Les problèmes étiquetés « percée » dans FrontierMath, ceux qui changeraient la face d’un domaine entier des mathématiques, restent hors de portée. Comme le souligne l’enquête menée auprès du mathématicien contributeur, seule une dizaine de chercheurs dans le monde maîtrisent parfaitement le sujet de ce problème spécifique. L’IA a battu un cercle restreint d’experts, pas la communauté mathématique mondiale.
La prochaine frontière reste intacte
Ce résultat s’inscrit dans une tendance qui s’accélère depuis 2024, quand AlphaProof de Google DeepMind avait décroché une médaille d’argent aux Olympiades internationales de mathématiques. Mais FrontierMath joue dans une catégorie différente : ici, il ne s’agit pas de résoudre des problèmes connus avec des méthodes connues, mais de produire des idées mathématiques nouvelles.
Epoch AI continue de soumettre ses 14 problèmes restants aux modèles les plus avancés. Le prochain niveau, « résultat solide », comprend des défis en théorie des nombres, en combinatoire et en géométrie algébrique. Tant qu’aucun modèle n’en résout un, la frontière entre « l’IA assiste la recherche » et « l’IA fait de la recherche » reste floue. Ce premier problème résolu ne tranche pas le débat. Mais il le rend nettement plus concret.