Cinq fois plus rapide, quatre fois plus cher. C’est le résumé brutal de Midjourney V8, la nouvelle version du générateur d’images qui débarque en test ce 18 mars sur le site Alpha de l’entreprise. Une mise à jour qui promet des images plus détaillées, un meilleur suivi des consignes, et une résolution native 2K, mais dont le modèle tarifaire risque de refroidir une partie de la communauté créative.
Des images en quelques secondes, mais à quel prix
Midjourney n’a pas fait dans la demi-mesure pour cette V8. L’entreprise annonce une génération d’images « environ cinq fois plus rapide » que la version précédente, selon sa propre communication sur le site Alpha. Le modèle introduit un mode –hd qui produit nativement des images en résolution 2K, ainsi qu’un mode –q 4 censé améliorer la cohérence globale des rendus. Les profils de personnalisation, les moodboards et les références de style créés sous V7 restent compatibles, précise l’équipe.
Là où ça coince, c’est sur la facture. Les fonctions premium, c’est-à-dire le mode HD, la qualité 4, les références de style et les moodboards, consomment quatre fois plus de crédits qu’une génération standard. Concrètement, un abonné au forfait Standard à 30 dollars par mois verra ses crédits fondre quatre fois plus vite dès qu’il utilise ces options. Et pour couronner le tout, le mode Relax, qui permettait jusqu’ici de générer des images lentement mais sans surcoût, n’est tout simplement pas disponible au lancement. Midjourney indique construire « un nouveau cluster de serveurs » pour le rétablir, sans donner de date.
Un pari sur la diffusion pure face aux modèles hybrides
Au-delà du prix, c’est le choix technique de Midjourney qui interpelle. L’entreprise reste fidèle à une architecture de diffusion pure, une approche qui consiste à générer l’image entière d’un seul bloc en partant de bruit aléatoire. C’est précisément ce qui rend le modèle rapide, mais aussi ce qui le limite face à des consignes complexes.
Ses concurrents ont pris un autre chemin. Google, avec sa gamme Nano Banana, et OpenAI, avec GPT image 1.5, utilisent des architectures hybrides qui mêlent diffusion et composants autorégressifs. En clair : le modèle « réfléchit » aux éléments un par un avant de composer l’image finale, ce qui lui permet de mieux respecter les instructions détaillées. Selon The Decoder, qui a testé V8 avec un prompt complexe demandant un cheval chevauchant un astronaute (et non l’inverse), Midjourney a échoué là où les modèles hybrides de Google et OpenAI s’en sortaient nettement mieux. Même Flux, le concurrent open source de Black Forest Labs, a fait légèrement mieux sur ce test.
C’est un débat fondamental dans l’industrie de l’image IA. La diffusion (le processus qui transforme du bruit aléatoire en image cohérente par étapes successives) excelle en vitesse et en esthétique brute. Les modèles hybrides, eux, ajoutent une couche de « raisonnement » séquentiel qui leur permet de décomposer un prompt complexe en éléments distincts avant de les assembler. Midjourney parie que la qualité visuelle et la vitesse comptent davantage pour ses utilisateurs que la fidélité absolue au prompt. Un pari compréhensible quand on sait que la majorité des créatifs utilisent ces outils pour de l’inspiration visuelle plutôt que pour des compositions techniques précises.
Une version « inachevée » assumée
Fait inhabituel : Midjourney reconnaît ouvertement que V8 n’est pas terminé. L’entreprise qualifie le modèle de « fondamentalement nouveau » et prévient que les stratégies de prompt habituelles pourraient ne plus fonctionner. L’esthétique standard du modèle « n’est pas encore finalisée », selon l’équipe, qui recommande aux utilisateurs de passer directement en mode –raw ou de s’appuyer sur les moodboards et références de style pour obtenir des résultats satisfaisants.
L’équipe conseille également de pousser la personnalisation au maximum (–stylize 1000) et d’écrire des prompts plus longs et plus détaillés. Pour le rendu de texte dans les images, V8 s’améliore sensiblement à condition de placer le texte souhaité entre guillemets dans le prompt, une limitation qui montre que même les progrès restent conditionnels.
Le vrai enjeu : le portefeuille des créatifs
Le changement de tarification de Midjourney s’inscrit dans une tendance plus large. Google a récemment lancé Nano Banana 2 à des tarifs agressifs via son API, avec des images à partir de 0,045 dollar pièce en résolution 512 pixels, comme le rapporte The Decoder dans son analyse des trois modèles de la gamme. OpenAI intègre la génération d’images directement dans ChatGPT. Et des alternatives open source comme Flux 2 de Black Forest Labs continuent de progresser sans abonnement mensuel.
Dans ce contexte, la stratégie de Midjourney ressemble à un pari risqué. L’entreprise, qui a bâti sa communauté sur Discord avant de migrer vers son propre site web, compte sur la fidélité de ses utilisateurs et sur la qualité esthétique distinctive de ses rendus. Mais quadrupler le coût des fonctions avancées au moment où la concurrence baisse ses prix, c’est un signal qui pourrait pousser les créatifs professionnels à diversifier leurs outils.
Pour l’instant, V8 reste en phase de test communautaire. Midjourney n’a pas communiqué de calendrier pour la sortie stable, ni pour le retour du mode Relax. La question de fond, c’est de savoir si le marché de la génération d’images va suivre la trajectoire des LLM, où les prix ont chuté de manière spectaculaire en deux ans sous la pression de la concurrence. OpenAI, Google et les projets open source ont tous intérêt à rendre l’image IA accessible au plus grand nombre. Midjourney, entreprise privée autofinancée sans investisseurs externes connus, joue une partition différente : monétiser au maximum une base d’utilisateurs fidèles plutôt que de courir après le volume. La V8 dira si cette stratégie tient face à des concurrents qui offrent désormais des résultats comparables pour une fraction du prix.