77,1 % sur ARC-AGI-2. Le chiffre a fait le tour de la tech en quelques heures. Google vient de lâcher Gemini 3.1 Pro, une mise à jour de son modèle phare qui double littéralement les performances de son prédécesseur sur ce benchmark de logique abstraite. Son ancien score ? 31,1 %. Difficile de faire plus net comme progression.
Un bond qui bouscule la hiérarchie
Le test ARC-AGI-2 mesure la capacité d’un modèle à résoudre des problèmes de logique inédits, le genre de casse-tête qu’on ne peut pas apprendre par cœur. Et c’est là que ça devient intéressant : selon les chiffres avancés par Google, Claude Opus 4.6 d’Anthropic plafonne à 68,8 %, GPT-5.2 d’OpenAI à 52,9 %. Sur le papier, Gemini 3.1 Pro les distance tous les deux.
Côté connaissances scientifiques, le modèle affiche 94,3 % au GPQA Diamond. En code, il atteint un score Elo de 2 887 sur LiveCodeBench Pro, contre 2 439 pour Gemini 3 Pro et 2 393 pour GPT-5.2. Même sur SWE-Bench Verified, dédié au code agentique, il frôle les 80,6 %, quasiment au coude-à-coude avec Opus 4.6 (80,8 %).
Mais bon, on sait comment ça marche. Les benchmarks, c’est le CV : ça brille sur le papier, la vraie valeur se mesure à l’usage.
À lire aussi
Ce que Google montre, et ce qu’il ne dit pas
Google met en avant des démos plutôt parlantes. Le modèle aurait configuré tout seul un flux de télémétrie pour afficher l’orbite de la Station spatiale internationale sur un tableau de bord. Il génère aussi des SVG animés à partir de texte, ou monte des sites web entiers. Le tout sans intervention humaine, d’après le blog officiel de l’équipe Gemini.
Reste qu’il y a des zones d’ombre. Sur MMMU Pro, un benchmark multimodal, c’est Gemini 3 Pro (l’ancien !) qui fait mieux : 81 % contre 80,5 %. Et sur Humanity’s Last Exam avec des outils, c’est Claude Opus 4.6 qui reste en tête à 53,1 %. Ars Technica note aussi que Google n’a pas décroché la première place sur le classement Arena, où les utilisateurs votent pour les réponses qu’ils préfèrent. Opus 4.6 garde 4 points d’avance.
Disponibilité et tarifs
Le modèle est déjà en preview. Les développeurs y accèdent via l’API Gemini, Google AI Studio, le CLI Gemini, la plateforme Antigravity et Android Studio. Pour les entreprises, c’est Vertex AI. Les abonnés Gemini Advanced y ont droit dès maintenant.
Côté tarifs pour les développeurs : 2,50 dollars par million de tokens en entrée, 15 dollars en sortie. Un palier « thinking » monte à 12,50 dollars en entrée et 50 dollars en sortie. Pas donné pour du raisonnement avancé, mais c’est le prix du marché.
Faut-il s’emballer ?
Google reprend du terrain sur le raisonnement pur, c’est clair. The Decoder rappelle que les scores ARC-AGI-2 ont grimpé chez tout le monde ces derniers mois, sans que ça transforme radicalement le quotidien des utilisateurs. Ars Technica souligne que les benchmarks ne racontent qu’une partie de l’histoire. Le vrai test, c’est vos propres prompts : ceux où vous savez à quoi ressemble une bonne réponse, et où vous pouvez comparer avec le modèle précédent. Le reste, c’est du marketing.