Compression par 6, zéro perte de qualité, et les cours de Micron qui plongent. Mardi, Google Research a publié TurboQuant, un algorithme capable de réduire drastiquement la mémoire utilisée par les modèles d’intelligence artificielle. Sur les réseaux sociaux, la réaction a été immédiate : des milliers d’internautes ont rebaptisé l’invention « Pied Piper », du nom de la startup fictive de la série Silicon Valley de HBO, dont l’intrigue reposait sur un algorithme de compression révolutionnaire. La fiction rattrapée par la réalité, en somme. Sauf que cette fois, la Bourse a réagi.
Quand HBO écrivait le futur sans le savoir
Entre 2014 et 2019, la série Silicon Valley suivait les déboires de Richard Hendricks, un développeur surdoué qui inventait un algorithme de compression capable de réduire n’importe quel fichier à une fraction de sa taille, sans perte. Pure fiction, bien sûr. Les ingénieurs de l’époque savaient que la compression parfaite se heurtait à des limites mathématiques bien réelles.
Sept ans plus tard, Google publie un article de recherche qui raconte une histoire étrangement similaire. TurboQuant ne compresse pas des fichiers MP3 ou des vidéos, mais la mémoire de travail des modèles d’IA, ce qu’on appelle le cache clé-valeur (KV cache). C’est l’équivalent du brouillon que votre cerveau griffonne quand il lit un long document : chaque mot traité par un modèle de langage est stocké sous forme de vecteur dans la mémoire vive du GPU. Plus la conversation dure, plus ce brouillon grossit, et plus la facture explose.
TurboQuant réduit ce brouillon par un facteur 6 en moyenne. Les performances de calcul des scores d’attention, le mécanisme qui permet au modèle de décider quels mots comptent dans une phrase, sont multipliées par 8. Le tout sans aucune perte mesurable de qualité, selon les chercheurs de Google. Matthew Prince, PDG de Cloudflare, a qualifié cette avancée de « moment DeepSeek de Google » sur X, en référence au modèle chinois qui avait secoué l’industrie en janvier 2025 en prouvant qu’on pouvait entraîner une IA performante pour une fraction du coût habituel.
Coordonnées polaires contre gaspillage de mémoire
Pour comprendre ce que TurboQuant change, il faut saisir le problème qu’il résout. Quand un modèle comme Gemma ou Mistral traite une conversation, il stocke chaque mot sous forme de vecteur à haute dimension dans sa mémoire rapide. Une conversation de 100 000 mots peut engloutir des dizaines de gigaoctets de VRAM, la mémoire la plus chère et la plus rare des cartes graphiques. Les méthodes de compression existantes tentent de réduire ces vecteurs en remplaçant des nombres précis par des nombres arrondis, mais elles doivent stocker des « constantes de correction » à côté des données compressées. Résultat : les gains de compression sont partiellement annulés par le poids de ces métadonnées, parfois 1 à 2 bits supplémentaires par nombre.
Google attaque le problème en deux étapes. La première, baptisée PolarQuant, convertit les vecteurs de coordonnées cartésiennes classiques (X, Y, Z) en coordonnées polaires : un rayon et des angles. Après une rotation aléatoire, la distribution de ces angles devient prévisible et concentrée. Le modèle peut alors projeter les données sur une grille circulaire fixe au lieu d’une grille carrée dont les bornes changent constamment. Les fameuses constantes de correction disparaissent.
La seconde étape, appelée QJL (Quantized Johnson-Lindenstrauss), réduit l’erreur résiduelle à un simple bit de signe : +1 ou -1. Ce correcteur mathématique garantit que le score d’attention calculé à partir des données compressées reste statistiquement identique à celui obtenu avec les données originales. Deux articles scientifiques détaillent ces méthodes, l’un sera présenté à la conférence ICLR 2026 à Rio de Janeiro, l’autre à AISTATS 2026 à Tanger.
Zéro erreur sur 100 000 mots
Le test le plus parlant s’appelle « Needle in a Haystack » : on cache une phrase précise dans un document de 100 000 mots et on demande au modèle de la retrouver. Sur les modèles Llama-3.1-8B et Mistral-7B, TurboQuant obtient un score parfait, identique à celui des modèles non compressés, tout en divisant l’empreinte mémoire par 6. C’est rare dans le monde de la compression extrême, où descendre à 3 bits par nombre provoque habituellement des hallucinations ou des pertes de cohérence, rappelle VentureBeat.
Moins de 24 heures après la publication, des développeurs indépendants ont porté l’algorithme vers MLX, la bibliothèque d’Apple pour les puces Apple Silicon, et vers llama.cpp, le moteur de référence pour faire tourner des modèles sur du matériel grand public. Un développeur, Prince Canuma, a testé TurboQuant sur le modèle Qwen3.5-35B avec des contextes allant de 8 500 à 64 000 tokens. Résultat : 100 % de correspondance exacte à chaque niveau de compression, et un cache KV réduit de près de 5 fois à 2,5 bits. Ce que Google promettait en laboratoire fonctionne sur des modèles tiers, sur du matériel courant.
Votre Mac Mini vient de devenir plus intelligent
C’est là que TurboQuant dépasse le cadre de la recherche académique. Plusieurs développeurs sur X ont souligné que l’algorithme réduit l’écart entre l’IA locale (gratuite, sur votre propre machine) et les abonnements cloud payants. Noah Epstein, analyste cité par TechCrunch, estime que des modèles tournant sur un Mac Mini « viennent de devenir radicalement meilleurs », capables de gérer des conversations de 100 000 tokens sans la dégradation habituelle. Prajwal Tomar, un autre développeur, salue la décision de Google de publier la recherche en accès libre plutôt que de la garder en interne.
Pour les entreprises, l’impact potentiel est chiffrable. VentureBeat estime que l’implémentation de TurboQuant pourrait réduire les coûts d’inférence de plus de 50 %. Quand on sait que la facture de calcul d’un modèle comme GPT-4 se compte en millions de dollars par mois, la promesse a de quoi attirer l’attention des directeurs financiers.
Les fabricants de RAM n’ont pas ri
Si TurboQuant a fait sourire les fans de Silicon Valley, les marchés financiers ont eu une réaction moins amusée. Après l’annonce de mardi, les cours de Micron et Western Digital, deux des principaux fabricants de mémoire, ont reculé. La logique des traders est simple : si un algorithme logiciel peut diviser par 6 les besoins en mémoire des modèles d’IA, la demande frénétique en HBM (High Bandwidth Memory) pourrait se calmer.
Plusieurs analystes tempèrent cette lecture. VentureBeat rappelle le paradoxe de Jevons : quand une ressource devient plus efficace à utiliser, la consommation totale augmente souvent au lieu de diminuer. Si l’IA consomme 6 fois moins de mémoire par requête, les entreprises pourraient simplement traiter 6 fois plus de requêtes, voire déployer des modèles plus gros. L’histoire de l’informatique regorge de ces virages où un gain d’efficacité a provoqué un boom de la demande plutôt qu’une contraction.
Il faut aussi garder les pieds sur terre. TurboQuant reste un résultat de laboratoire. Il compresse la mémoire d’inférence (quand le modèle répond), pas la mémoire d’entraînement (quand il apprend). Cette dernière continue de dévorer des quantités colossales de RAM et de GPU. Le problème est résolu à moitié, mais c’est la moitié qui touche directement le portefeuille des utilisateurs finaux.
Google présentera ses résultats en détail lors des conférences ICLR à Rio de Janeiro en avril et AISTATS à Tanger. D’ici là, la communauté open source a déjà pris les devants. En moins d’une journée, TurboQuant fonctionnait sur du matériel Apple et sur des PC grand public. Si les résultats se confirment à grande échelle, le prochain chapitre de la course à l’IA pourrait se jouer autant dans les mathématiques de la compression que dans la course aux GPU les plus puissants.