ChatGPT, Claude, Gemini : ces assistants tournent dans des centres de données qui consomment autant d’électricité qu’une ville moyenne. Chaque question posée traverse des milliers de kilomètres de fibre optique avant de revenir sur votre écran. Pourtant, une nouvelle génération de modèles tient désormais dans un smartphone et fonctionne sans la moindre connexion. Cohere vient d’en lancer un, Tiny Aya, capable de comprendre 70 langues sur un simple ordinateur portable. Voici comment c’est possible.
Un LLM géant ne rentre pas dans un téléphone
Pour comprendre le problème, il faut revenir aux bases. Un modèle de langage comme GPT-4 pèse plusieurs centaines de milliards de paramètres. Chaque paramètre est un chiffre stocké en mémoire, et l’ensemble occupe plusieurs centaines de gigaoctets. Un iPhone dispose de 8 Go de RAM. Le calcul est vite fait : impossible de loger un mastodonte pareil dans un appareil de poche.
C’est là qu’interviennent les Small Language Models (SLM), les « petits modèles de langage ». Au lieu de 175 ou 400 milliards de paramètres, ces modèles en comptent entre 500 millions et 10 milliards. Phi-3 Mini de Microsoft, par exemple, se contente de 3,8 milliards de paramètres. Le modèle d’Apple Intelligence embarqué sur les iPhone, iPad et Mac en contient environ 3 milliards. Le Tiny Aya de Cohere, 3,35 milliards.
Moins de paramètres signifie moins de mémoire, moins de puissance de calcul, et surtout la possibilité de tourner directement sur l’appareil de l’utilisateur. Les chercheurs appellent ça l' »edge AI » ou « IA embarquée ».
Faire rentrer un éléphant dans une valise
Réduire un modèle ne suffit pas. Il faut aussi compresser les paramètres restants pour qu’ils occupent encore moins de place. C’est le rôle de la quantification.
Le principe est simple à visualiser. Un paramètre classique est stocké avec une grande précision, comme un nombre à 16 décimales. La quantification revient à arrondir ce nombre à 4 ou 8 décimales. On perd un tout petit peu de précision, mais on divise la taille du modèle par deux, trois, voire quatre.
En pratique, un modèle de 7 milliards de paramètres en précision standard occupe environ 14 Go. Après quantification, il passe sous les 4 Go, soit la RAM d’un smartphone milieu de gamme. Selon une étude de l’université de Hong Kong publiée sur arXiv (SLMQuant, novembre 2025), les techniques de quantification efficaces pour les gros modèles ne marchent pas toujours bien sur les petits. Les SLM ont des caractéristiques architecturales différentes qui exigent des méthodes de compression adaptées.
Deux autres techniques complètent la boite à outils. L’élagage (« pruning ») consiste à supprimer les connexions les moins utiles du réseau de neurones, comme tailler les branches mortes d’un arbre. La distillation, elle, revient à faire « enseigner » un gros modèle à un petit : le petit apprend à imiter les réponses du grand, sans avoir besoin de tout son bagage.
Le NPU, la puce secrète de votre smartphone
Faire tourner un modèle compressé, c’est bien. Avoir une puce spécialisée pour le faire tourner vite, c’est mieux. C’est exactement ce que font les NPU (Neural Processing Units), des processeurs conçus spécifiquement pour les calculs d’intelligence artificielle.
Les smartphones récents en embarquent presque tous. Le Neural Engine d’Apple exécute 35 000 milliards d’opérations par seconde (TOPS) sur l’iPhone 16 Pro. Le Snapdragon X2 de Qualcomm monte à 80 TOPS. Les puces Intel Core Ultra 300 intègrent aussi un NPU dédié dans les PC portables.
Ces puces ne remplacent pas le processeur principal. Elles travaillent en parallèle, dédiées aux multiplications matricielles (le type de calcul dominant dans les réseaux de neurones). Le résultat : une réponse en quelques dizaines de millisecondes, sans aucun aller-retour vers un serveur distant. Là où une requête cloud prend entre 500 millisecondes et 2 secondes (temps réseau inclus), l’inférence locale descend sous les 100 millisecondes.
Vie privée, coût, hors-ligne : le triple avantage
Pourquoi se donner tout ce mal alors que ChatGPT fonctionne très bien dans le cloud ? Trois raisons.
La vie privée d’abord. Quand l’IA tourne sur votre appareil, vos données n’en sortent pas. Apple a construit toute la stratégie d’Apple Intelligence sur ce principe : le modèle de 3 milliards de paramètres traite les requêtes localement, et seules les taches les plus complexes sont envoyées au cloud via un système baptisé « Private Cloud Compute ». Pour les entreprises soumises au RGPD ou aux normes de santé (HIPAA aux États-Unis), cette architecture locale simplifie la conformité réglementaire.
Le coût ensuite. Selon le cabinet Zylos Research, faire tourner un SLM de 7 milliards de paramètres coute 10 à 30 fois moins cher que d’utiliser un LLM de 70 à 175 milliards via API. Pour une entreprise qui traite des milliers de documents par jour, la facture passe de 0,30 dollar par document (via une API cloud) à 0,02 dollar en local. Gartner estime que d’ici 2027, les organisations utiliseront trois fois plus de modèles spécialisés de petite taille que de modèles généralistes massifs.
L’accès hors-ligne enfin. C’est tout l’enjeu d’un projet comme Tiny Aya de Cohere : permettre à un développeur au Bengale ou au Nigeria de créer une appli de traduction ou d’assistance dans sa langue locale, meme dans une zone mal couverte par le réseau. Plus de 2 milliards de smartphones exécutent déjà des SLM localement, selon les chiffres compilés par Zylos Research début 2026.
Petits modèles, vraies limites
Un SLM ne remplacera pas GPT-4 ou Claude pour tout. Avec 3 milliards de paramètres au lieu de 400, le modèle sait moins de choses. Son raisonnement complexe est plus limité. Les taches qui exigent de croiser des dizaines de sources, d’écrire un rapport juridique de 50 pages ou de coder un logiciel complet restent le territoire des gros modèles cloud.
Les chercheurs d’Adobe, qui ont développé SlimLM (un SLM optimisé pour l’assistance documentaire sur Samsung Galaxy S24), ont testé des modèles de 125 millions à 8 milliards de paramètres. Leur constat, présenté à la conférence ACL 2025 : le « point d’équilibre » entre taille, vitesse et qualité se situe autour de 1 à 3 milliards de paramètres pour un usage mobile courant.
En clair : les SLM excellent pour la traduction rapide, les résumés courts, l’autocomplétion, les commandes vocales et le tri d’informations. Pour les taches lourdes, le cloud garde l’avantage.
2026, l’année où l’IA devient locale
La tendance est nette. Microsoft a lancé Phi-3, Meta propose Llama 3.2 en versions 1 et 3 milliards de paramètres, Google embarque Gemini Nano dans ses Pixel, Apple fait tourner son propre modèle sur des centaines de millions d’appareils, et Cohere cible les langues sous-représentées avec Tiny Aya.
Le mouvement open-source accélère aussi les choses. Des outils comme llama.cpp permettent de faire tourner des modèles sur n’importe quel ordinateur, et le format GGUF s’est imposé comme standard pour les modèles quantifiés. Résultat : n’importe quel développeur peut télécharger un SLM et l’intégrer dans son application, gratuitement.
L’IA qui vit dans le cloud ne disparaitra pas. Mais une partie croissante de l’intelligence artificielle migre vers vos appareils, plus rapide, plus privée, et accessible meme quand le Wi-Fi tombe. La prochaine fois que votre iPhone corrige une phrase ou que votre Pixel traduit un menu à l’étranger sans connexion, c’est un petit modèle qui fait le travail, directement dans votre poche.