1 009 tokens par seconde. C’est la vitesse annoncée par Inception Labs pour Mercury 2, son nouveau modèle de langage. Le truc, c’est qu’il ne fonctionne pas du tout comme les autres.

Générer du texte comme on retouche une photo

Les modèles classiques, de ChatGPT à Gemini en passant par Claude, fonctionnent tous sur le même principe : ils génèrent le texte mot par mot, de gauche à droite. C’est l’architecture Transformer, inventée par Google en 2017, qui domine l’intégralité du secteur depuis bientôt dix ans. Mercury 2 fait autrement. Il s’appuie sur la diffusion, une technique jusqu’ici réservée à la génération d’images (c’est comme ça que Midjourney et Stable Diffusion créent leurs visuels). Appliquée au texte, l’idée change radicalement : au lieu de pondre un mot après l’autre, le modèle produit un brouillon complet puis le raffine en plusieurs passes simultanées. Inception compare ça à un rédacteur qui retravaillerait un paragraphe entier d’un coup, plutôt que de taper lettre par lettre. Résultat concret : une latence de bout en bout de 1,7 seconde, rapporte The Decoder. Face à Gemini 3 Flash de Google (14,4 secondes) ou Claude Haiku 4.5 d’Anthropic avec raisonnement activé (23,4 secondes), le fossé est énorme. Et côté tarifs, Mercury 2 affiche 0,25 dollar par million de tokens en entrée et 0,75 dollar en sortie, soit quatre fois moins cher que Gemini 3 Flash sur les tokens générés.

50 millions de dollars et des soutiens de poids

Inception Labs n’est pas sortie de nulle part. La startup a levé 50 millions de dollars en novembre dernier, avec Microsoft, Nvidia et Snowflake au capital, selon The Decoder. Un premier prototype avait été montré début 2025. Mercury 2 est la version production, avec raisonnement intégré, une fenêtre de contexte de 128 000 tokens, l’utilisation d’outils et la sortie en JSON. Sur les benchmarks, le modèle se situe dans une zone intermédiaire. Il obtient 74 sur GPQA Diamond et 91 sur AIME, des scores supérieurs à GPT-5 Nano et comparables à Claude 4.5 Haiku. Mais Gemini 3 Flash le dépasse largement sur la plupart des tests de raisonnement pur (90 sur GPQA Diamond, 91 sur LCB). La promesse de Mercury 2 n’est pas d’être le plus intelligent. C’est d’être le plus rapide pour un niveau de qualité acceptable. Inception cible les entreprises qui ont besoin de réponses quasi instantanées : assistants vocaux, outils de code, moteurs de recherche. Des cas où attendre 15 secondes n’est pas une option.

Et si le Transformer avait trouvé son challenger ?

Inception n’est pas la seule à explorer cette piste. Google DeepMind travaille sur Gemini Diffusion, un modèle expérimental présenté en mai 2025 qui affichait des performances comparables à Gemini 2.0 Flash Lite. Mais Google n’a plus rien communiqué sur le sujet depuis, rapporte The Decoder. La question qui se pose maintenant : est-ce que la diffusion peut tenir la route sur le long terme face au Transformer ? Les modèles actuels ont des milliards de dollars d’investissement et des années d’optimisation derrière eux. Mercury 2 prouve que l’alternative fonctionne. Savoir si elle tiendra à l’échelle, avec des modèles plus gros et des tâches plus complexes, c’est une autre histoire.