Un modèle capable de tourner sur un ordinateur portable vient de surpasser un rival treize fois plus lourd sur les benchmarks de référence.

Alibaba vient de publier quatre modèles d IA si compacts qu ils tiennent sur un téléphone ou un laptop. Le plus performant d entre eux, Qwen3.5-9B, bat le gpt-oss-120B d OpenAI sur le raisonnement scientifique et la compréhension multilingue. Neuf milliards de paramètres contre cent vingt milliards. L équipe Qwen d Alibaba a publié les poids sous licence Apache 2.0 sur Hugging Face et ModelScope, en accès libre pour un usage commercial.

Quatre modèles, du smartphone au laptop

La série Qwen3.5 Small comprend quatre tailles. Le 0,8B et le 2B visent les appareils mobiles et les prototypes rapides, avec une empreinte mémoire minimale. Le 4B gère nativement une fenêtre de contexte de 262 144 tokens et sert de base multimodale pour des agents légers. Le 9B, le plus ambitieux, combine raisonnement de niveau doctoral et compréhension d images et de vidéos dans un seul modèle.

L annonce fait suite à la publication, la semaine précédente, des modèles Qwen3.5 Medium, déjà capables de rivaliser avec Sonnet 4.5 d Anthropic sur un seul GPU, selon VentureBeat. L accélération du rythme de publication est frappante : en trois semaines, l équipe Qwen a couvert l ensemble du spectre, des modèles géants (397 milliards de paramètres) aux modèles de poche.

Les chiffres qui enterrent la course à la taille

Sur le benchmark GPQA Diamond, qui mesure le raisonnement scientifique de niveau doctoral, le Qwen3.5-9B obtient 81,7 points. Le gpt-oss-120B d OpenAI, treize fois plus volumineux, plafonne à 80,1. L écart se creuse sur la compréhension multilingue : 81,2 contre 78,2 sur le benchmark MMMLU, rapporte VentureBeat.

En raisonnement visuel (MMMU-Pro), le 9B atteint 70,1 contre 59,7 pour Gemini 2.5 Flash-Lite de Google. En compréhension vidéo (Video-MME), il grimpe à 84,5 contre 74,6 pour le modèle de Google. Sur l épreuve de mathématiques du tournoi Harvard-MIT (HMMT), le 9B décroche 83,2 et le 4B atteint 74,0.

Ces résultats proviennent de benchmarks tiers standardisés. Ils ne disent pas tout de l usage réel, mais la tendance est nette : la taille brute d un modèle ne suffit plus à prédire ses performances.

Une architecture qui rompt avec le Transformer classique

La série Qwen3.5 Small repose sur une architecture hybride qui s écarte du Transformer standard dominant l industrie depuis 2017. Alibaba combine des Gated Delta Networks, une forme d attention linéaire qui réduit la consommation mémoire, avec un système de Mixture-of-Experts (MoE) creux. Le principe : au lieu d activer tous les paramètres du modèle à chaque requête, seule une fraction des experts se déclenche. Le résultat est un débit plus élevé et une latence réduite, ce qui permet de faire tourner le modèle sur du matériel grand public.

L autre rupture concerne la multimodalité. Les générations précédentes de modèles ajoutaient un encodeur visuel par-dessus un modèle textuel, comme une couche supplémentaire. Qwen3.5 a été entraîné dès le départ sur des tokens multimodaux (texte et image fusionnés). Le 4B et le 9B comprennent des interfaces graphiques, comptent des objets dans une vidéo et lisent des documents avec un niveau de précision qui nécessitait auparavant des modèles dix fois plus gros, selon les données publiées par l équipe Qwen.

La Chine accélère pendant que Washington se déchire

La publication de ces modèles intervient dans un contexte géopolitique tendu. Aux États-Unis, le conflit entre Anthropic et le Pentagone monopolise l attention du secteur. Des ingénieurs des grandes entreprises d IA américaines ont signé une lettre ouverte demandant au département de la Défense de retirer sa désignation d Anthropic comme « risque pour la chaîne d approvisionnement », rapporte TechCrunch. Pendant ce temps, l équipe Qwen enchaîne les publications à un rythme soutenu.

Le contraste illustre une dynamique plus large. Depuis la percée de DeepSeek début 2025, les laboratoires chinois misent sur l efficacité plutôt que sur la puissance brute. DeepSeek avait montré qu un modèle entraîné avec des moyens limités pouvait rivaliser avec les géants américains. Alibaba pousse cette logique un cran plus loin en publiant des modèles capables de tourner hors connexion, sur un MacBook ou un smartphone, sans dépendre d un cloud centralisé.

Paul Couvert, éducateur tech chez Blueshell AI, résume le choc sur X : « Comment est-ce possible ? La version 4B est presque aussi performante que l ancien 80B. Et le 9B est aussi bon que le GPT-oss-120B tout en étant 13 fois plus petit. »

L open source comme arme stratégique

En publiant sous licence Apache 2.0, Alibaba fait un choix calculé. Toute entreprise peut télécharger, modifier et déployer ces modèles sans redevance ni autorisation. C est la licence la plus permissive du marché, la même qu utilise Meta pour ses modèles Llama. La collection complète Qwen3.5 sur Hugging Face compte déjà des millions de téléchargements en quelques semaines.

Pour les développeurs et les entreprises qui veulent exécuter des modèles d IA sans envoyer leurs données vers un serveur distant, ces petits modèles changent la donne. Un modèle de 9 milliards de paramètres consomme environ 6 Go de RAM en quantification 4 bits, soit moins qu un onglet Chrome gourmand. Le 0,8B et le 2B tiennent sur un téléphone.

OpenAI avait amorcé un retour vers l open source avec gpt-oss-120B et gpt-oss-20B. Mais ces modèles restent lourds et dépendants de GPU puissants pour l inférence. Alibaba vient de démontrer que la performance de pointe peut tenir dans la poche. Le prochain round de cette compétition se jouera sur le terrain des applications embarquées, des agents autonomes et de l IA hors ligne, des segments où la Chine accumule de l avance.