Un modèle de 9 milliards de paramètres vient de surpasser un rival qui en compte 120 milliards. L’exploit d’Alibaba n’est pas un accident isolé. Depuis deux ans, les petits modèles d’IA rattrapent puis dépassent les mastodontes sur les benchmarks de référence. Trois techniques expliquent cette révolution silencieuse : la distillation de connaissances, le Mixture of Experts et la quantification.

Le professeur et l’élève : la distillation

Geoffrey Hinton, prix Nobel de physique 2024, a posé les bases de la distillation de connaissances en 2015 dans un article co-signé avec Oriol Vinyals et Jeff Dean chez Google. Le principe tient en une image : un professeur expérimenté transmet son savoir à un élève plus jeune, plus léger, mais suffisamment doué pour retenir l’essentiel. Concrètement, un gros modèle (le « professeur ») est d’abord entraîné normalement sur des masses de données. Ensuite, un petit modèle (l' »élève ») apprend non pas à partir des données brutes, mais à partir des réponses du professeur. La nuance est décisive. Quand un modèle classifie une image de chat, il ne dit pas simplement « chat ». Il attribue une probabilité à chaque catégorie possible : 92 % chat, 5 % tigre, 2 % lynx. Ces probabilités « douces » contiennent bien plus d’information que la seule réponse finale. L’élève apprend à reproduire ces distributions fines, et absorbe ainsi des raccourcis que le professeur a mis des semaines de calcul à découvrir. DeepSeek a popularisé cette approche à grande échelle fin 2024, rapporte MIT Technology Review. En distillant les capacités de raisonnement de son modèle R1 (671 milliards de paramètres) vers des modèles de 7 à 70 milliards de paramètres, l’entreprise chinoise a obtenu des performances comparables à un coût de calcul divisé par dix, selon VentureBeat. OpenAI a réagi en interdisant l’utilisation de ses sorties pour entraîner des modèles concurrents dans ses conditions d’utilisation, un aveu implicite de l’efficacité de la méthode.

Activer 10 % du cerveau : le Mixture of Experts

Le Mixture of Experts, ou MoE, part d’un constat simple : un modèle géant n’a pas besoin de mobiliser la totalité de ses neurones pour répondre à chaque question. Poser une question de mathématiques ne sollicite pas les mêmes compétences que traduire du japonais. Le MoE découpe le réseau en sous-réseaux spécialisés, les « experts », et un routeur décide à chaque requête lesquels activer. Un modèle de 100 milliards de paramètres au total peut n’en activer que 10 milliards à chaque passage. Le résultat : la puissance d’un géant avec le coût de calcul d’un modèle moyen. Google a été le premier à utiliser cette architecture à grande échelle avec son Switch Transformer en 2022, rapporte IEEE Spectrum. Depuis, Mistral AI l’a popularisée en Europe avec Mixtral, et DeepSeek l’a poussée encore plus loin avec une variante « fine-grained » qui active des groupes d’experts plus petits et plus nombreux. Le dernier modèle d’Alibaba, le Qwen3.5, combine le MoE avec une autre innovation : les Gated Delta Networks, une forme d’attention linéaire qui consomme moins de mémoire que le mécanisme d’attention classique du Transformer. L’hybridation de ces deux techniques explique comment un modèle de 9 milliards de paramètres arrive à rivaliser avec des concurrents treize fois plus lourds sur des épreuves de raisonnement scientifique.

Faire rentrer un éléphant dans une valise : la quantification

La quantification s’attaque à un problème différent. Plutôt que de réduire le nombre de paramètres, elle réduit la précision de chaque paramètre. Par défaut, les modèles stockent leurs poids en virgule flottante 32 bits ou 16 bits. La quantification les compresse en 8 bits, 4 bits, voire 2 bits. L’analogie la plus parlante : une photo JPEG. Réduire la qualité de 100 % à 80 % divise le poids du fichier par trois, mais l’œil humain ne voit presque aucune différence. Pour les modèles d’IA, c’est le même principe. Passer de 16 bits à 4 bits divise par quatre la mémoire nécessaire, ce qui permet de faire tourner un modèle de 70 milliards de paramètres sur un GPU grand public de 24 Go de VRAM. Meta utilise cette technique pour distribuer ses modèles Llama sur du matériel accessible, rapporte The Verge. Les chercheurs de l’université de Washington ont montré en 2025 que la quantification en 4 bits (GPTQ) préservait entre 95 et 99 % des performances du modèle original sur les tâches de raisonnement, selon leurs résultats publiés sur arXiv. En dessous de 3 bits, la dégradation devient perceptible, surtout sur les tâches qui demandent un raisonnement en plusieurs étapes.

Pourquoi les géants ne sont plus rois

Ces trois techniques ne s’excluent pas. On peut distiller un modèle géant vers un modèle plus petit, utiliser le MoE pour n’activer qu’une fraction des paramètres, puis quantifier le résultat pour qu’il tourne sur un téléphone. C’est exactement la stratégie qu’Alibaba applique avec sa série Qwen3.5 Small : un modèle de 0,8 milliard de paramètres qui fonctionne sur un smartphone, avec des performances que personne n’aurait prédites il y a deux ans. Le coût de l’entraînement des gros modèles continue d’exploser. OpenAI aurait dépensé plus de 500 millions de dollars pour entraîner GPT-5, selon The Information. Meta a investi 37 milliards de dollars en infrastructure IA en 2025, rapporte Reuters. La distillation, le MoE et la quantification permettent de récupérer une part massive de cette performance sans reproduire la dépense. C’est la raison pour laquelle OpenAI a durci ses conditions d’utilisation contre la distillation : si n’importe quel labo peut capturer 90 % des capacités d’un modèle de pointe pour une fraction du prix, le modèle économique des géants vacille.

Ce que ça change pour les utilisateurs

Pour un développeur ou une entreprise, l’impact est concret. Un modèle distillé et quantifié à 4 bits peut tourner en local, sans connexion internet, sans envoyer de données vers un serveur tiers. Les coûts d’inférence (le prix pour faire fonctionner le modèle) chutent proportionnellement à la réduction de taille. Google a intégré des modèles compressés directement dans les Pixel 9, Apple fait de même avec ses puces M4. La prochaine vague d’assistants IA sur smartphone ne dépendra plus d’une connexion au cloud. Le papier original de Geoffrey Hinton sur la distillation a été cité plus de 25 000 fois depuis 2015. Dix ans plus tard, ses idées structurent la guerre industrielle la plus coûteuse de l’histoire de la tech. La course n’est plus seulement à celui qui construit le plus gros modèle. Elle est aussi à celui qui sait le comprimer le plus intelligemment.