100 boucles d’optimisation. Zéro intervention humaine. Le modèle d’IA chinois MiniMax M2.7, dévoilé ce 21 mars, a corrigé ses propres erreurs, ajusté son entraînement et amélioré ses performances de 30 % en se modifiant lui-même, rapporte The Decoder. Ce n’est plus un exercice de laboratoire : chez OpenAI aussi, le dernier modèle de code GPT-5.3 Codex a accéléré son propre développement. L’IA auto-améliorante quitte la science-fiction pour entrer dans les pipelines de production.

Un modèle qui réécrit ses propres règles du jeu

MiniMax, startup chinoise valorisée à plusieurs milliards de dollars, décrit M2.7 comme « notre premier modèle participant activement à sa propre évolution ». Concrètement, le système a mis à jour ses propres bases de connaissances, construit des dizaines de fonctionnalités au sein de son infrastructure d’agent, puis utilisé les résultats obtenus pour affiner son propre processus d’apprentissage par renforcement. Les chercheurs humains n’intervenaient que sur les décisions critiques. Le modèle prenait en charge 30 à 50 % du flux de travail quotidien de l’équipe.

Dans un test particulièrement frappant, M2.7 a été lâché dans un environnement de développement interne avec une seule consigne : améliorer ses performances en programmation. Sur plus de 100 itérations, il a analysé ses échecs, planifié des modifications, réécrit du code, testé les résultats et décidé seul de conserver ou d’abandonner chaque changement. Résultat, selon MiniMax : un bond de 30 % sur les évaluations internes.

Des benchmarks qui tutoient les géants occidentaux

Sur le plan des performances brutes, M2.7 se positionne juste derrière les modèles les plus chers du marché. D’après les chiffres publiés par MiniMax, le modèle atteint 56,22 % sur SWE-Pro, un benchmark d’ingénierie logicielle, un score comparable à celui de GPT-5.3 Codex d’OpenAI. Sur VIBE-Pro, qui évalue la livraison de projets complets, il obtient 55,6 %. En compétition de machine learning (MLE Bench Lite d’OpenAI), M2.7 décroche un taux de médaille de 66,6 % sur 22 épreuves, derrière Opus 4.6 d’Anthropic (75,7 %) et GPT-5.4 (71,2 %), mais au niveau de Gemini 3.1.

Pour les tâches de bureautique professionnelle, le modèle revendique un score ELO de 1 495 sur le benchmark GDPval-AA, le plus élevé parmi les modèles open-weight. MiniMax affirme que M2.7 maintient une fidélité de 97 % aux consignes sur plus de 40 jeux d’instructions complexes. En démonstration, le modèle a lu les rapports annuels de TSMC, construit un modèle de prévision de ventes, puis généré une présentation et un rapport de recherche que des analystes financiers ont jugé utilisable comme premier brouillon.

OpenAI joue la même partition

MiniMax n’est pas seul sur ce terrain. OpenAI a revendiqué une approche similaire avec GPT-5.3 Codex, son dernier modèle de code. Selon l’entreprise, les versions préliminaires du modèle ont été utilisées pour traquer les bugs pendant l’entraînement, gérer le déploiement et évaluer les résultats de tests. L’équipe s’est dite « soufflée par la vitesse à laquelle Codex a accéléré son propre développement », selon The Decoder. Le modèle a d’ailleurs été classé comme le premier d’OpenAI à atteindre un niveau de risque cybersécurité « élevé », une précaution qui en dit long sur les capacités acquises.

La convergence est frappante : deux entreprises sur deux continents, avec des approches différentes, arrivent à la même conclusion. Laisser l’IA participer à sa propre création accélère le développement et améliore les résultats. La question n’est plus de savoir si c’est possible, mais jusqu’où ça peut aller.

Une idée vieille de vingt ans qui explose maintenant

Le concept d’IA auto-améliorante n’a rien de nouveau. En 2003, le chercheur Jürgen Schmidhuber, pionnier de l’intelligence artificielle et lauréat de nombreux prix, posait les bases théoriques avec sa « Machine de Gödel » : un système qui ne modifie son propre code que lorsqu’il peut prouver formellement que le changement sera bénéfique. Pendant deux décennies, l’idée est restée au stade de curiosité académique, faute de puissance de calcul suffisante.

Depuis 2025, les implémentations concrètes se multiplient. La startup japonaise Sakana AI a développé la « Machine de Darwin-Gödel », un système qui réécrit son propre code Python pour produire des variantes de lui-même, les évalue sur des benchmarks réels, puis conserve les meilleures versions dans une archive évolutive. Résultat : ses performances sur SWE-bench, un benchmark de résolution de bugs GitHub, sont passées de 20 à 50 %. Le laboratoire de Schmidhuber à KAUST (Arabie saoudite) a suivi avec la « Machine de Huxley-Gödel », une variante qui pousse l’approche évolutive encore plus loin.

Entre promesse et vertige

MiniMax ne cache pas son ambition. L’entreprise décrit une feuille de route où l’auto-évolution de l’IA « passera progressivement à une autonomie complète, coordonnant la construction de données, l’entraînement des modèles, l’architecture d’inférence et l’évaluation sans intervention humaine ». Autrement dit : une IA qui décide seule comment devenir meilleure, de A à Z.

Le fossé entre l’IA d’aujourd’hui et l’IA véritablement autonome reste immense. Les benchmarks, aussi impressionnants soient-ils, ne reflètent pas toujours les performances en conditions réelles, et les résultats dépendent fortement des conditions de test. Mais la trajectoire est claire. En un an, on est passé de la théorie académique à des modèles commerciaux qui participent activement à leur propre création. Goldman Sachs estime que le marché des robots humanoïdes, l’un des débouchés naturels de ces modèles auto-améliorants, pourrait atteindre 38 milliards de dollars d’ici 2035.

Côté concurrence directe, M2.7 est accessible via MiniMax Agent et la plateforme API, mais les poids du modèle ne sont pas encore publiés, contrairement aux versions précédentes. Un choix qui pourrait freiner l’adoption, alors que la communauté open-source reste le principal terrain de conquête pour les modèles chinois face aux géants américains.