397 milliards. C’est le nombre de paramètres que trimballe Qwen 3.5, le dernier modèle d’Alibaba. Un chiffre qui donne le vertige, balancé comme argument marketing par tous les labos d’IA du monde. Mais concrètement, un paramètre, c’est quoi ? Et surtout : en mettre plus, ça sert vraiment à quelque chose ?
Un paramètre, c’est un bouton de réglage
Prenez une table de mixage. Chaque curseur ajuste un son : les basses, les aigus, le volume d’un instrument. Un modèle d’IA, c’est pareil, sauf qu’il y a des milliards de curseurs.
Techniquement, un paramètre est un nombre décimal (on parle de « poids ») stocké dans un réseau de neurones artificiels. Quand le modèle reçoit du texte, chaque mot traverse des couches de calcul. À chaque étape, les paramètres déterminent comment l’information circule. Tel mot est proche de tel autre ? Ce bout de phrase annonce une question ? La réponse devrait être formelle ou décontractée ? Tout ça se joue dans ces milliards de petits nombres, selon IBM Research.
Pendant l’entraînement, le modèle lit des quantités astronomiques de texte (des livres, des sites web, du code) et ajuste ses paramètres pour mieux prédire le mot suivant dans une phrase. C’est un processus itératif qui dure des semaines sur des milliers de puces graphiques. Le résultat : une sorte de carte mentale statistique du langage humain.
La course aux milliards
En 2018, GPT-1 d’OpenAI comptait 117 millions de paramètres. GPT-3, sorti en 2020, en affichait 175 milliards. Depuis, chaque labo a voulu son modèle toujours plus gros.
Google a sorti PaLM à 540 milliards en 2022. Alibaba vient de poser Qwen 3.5 à 397 milliards. Meta développe des versions de Llama qui grimpent aussi dans ces eaux-là. La logique derrière cette inflation ? Des chercheurs d’OpenAI ont publié en 2020 un papier sur les « lois d’échelle » (scaling laws) qui montrait un lien clair : plus le modèle est gros, plus ses performances s’améliorent de façon prévisible. Selon Jared Kaplan et son équipe, la perte (l’erreur du modèle) diminue comme une loi de puissance quand on augmente le nombre de paramètres.
Du coup, la recette semblait simple. Plus de paramètres, plus de données, plus de puissance de calcul = un meilleur modèle. Les investisseurs ont suivi, les data centers ont poussé comme des champignons.
À lire aussi
Plus gros ne veut pas dire meilleur
Sauf que cette logique a ses limites. En 2022, l’équipe DeepMind de Google a publié l’étude Chinchilla, qui a remis les pendules à l’heure. Leur découverte : la plupart des gros modèles étaient sous-entraînés. Plutôt que d’empiler les paramètres, il valait mieux équilibrer la taille du modèle avec la quantité de données d’entraînement.
Chinchilla, avec « seulement » 70 milliards de paramètres mais entraîné sur bien plus de texte, battait des modèles trois fois plus gros comme Gopher (280 milliards). Le message était clair : la taille brute ne suffit pas.
Depuis, on voit émerger des modèles dits « petits mais costauds ». Phi-2 de Microsoft, avec 2,7 milliards de paramètres, rivalise avec des modèles 25 fois plus gros sur certaines tâches de raisonnement, rapporte le blog de Microsoft Research. Mistral, la startup française, a fait sensation avec des modèles de 7 milliards qui tenaient tête aux mastodontes.
Le vrai coût de chaque paramètre
Derrière chaque milliard de paramètres, il y a une facture. Entraîner un modèle de 100 milliards de paramètres coûte entre 5 et 20 millions de dollars en puissance de calcul, selon des estimations d’Epoch AI. Pour les plus gros, on dépasse les 100 millions.
Et le coût ne s’arrête pas à l’entraînement. Faire tourner un modèle géant en production, ça demande de la RAM spécialisée (VRAM sur GPU). Un modèle de 70 milliards de paramètres en précision standard occupe environ 140 Go de mémoire. Pour les 397 milliards de Qwen 3.5, on parle de presque 800 Go, soit un rack entier de cartes graphiques haut de gamme.
C’est pourquoi la quantification est devenue une technique clé. On compresse les paramètres en réduisant leur précision (de 32 bits à 4 ou 8 bits), ce qui divise la mémoire nécessaire sans trop dégrader les performances. On triche un peu pour que le modèle rentre dans la machine.
Deux routes, un même objectif
La tendance actuelle va dans deux directions opposées. D’un côté, les labos continuent de construire des modèles toujours plus massifs pour repousser les frontières du possible. OpenAI, Google, Alibaba, Meta : tout le monde veut son trillion de paramètres.
De l’autre, une course parallèle vise à rendre les modèles plus petits, plus rapides, plus efficaces. Les « mixture of experts » (MoE), une architecture où seule une fraction des paramètres s’active pour chaque requête, permettent d’avoir un modèle « gros sur le papier » mais léger à l’usage. Qwen 3.5 utilise d’ailleurs cette technique.
Le paramètre, au fond, ce n’est qu’un outil. Ce qui compte, c’est comment on l’utilise, combien de données on lui donne à digérer, et quelle architecture le porte. Compter les milliards, c’est un peu comme juger un moteur uniquement à sa cylindrée. Ça dit quelque chose, mais pas tout.