4 192 paramètres. Aucune dépendance externe. Un seul fichier Python de 200 lignes. Andrej Karpathy vient de publier MicroGPT, et la communauté tech s’est arrêtée net : en moins de 48 heures, le projet est remonté en tête du classement de Hacker News, accumulant plusieurs centaines de commentaires enthousiastes.
Le projet d’une décennie d’obsession
Ancien directeur de l’IA chez Tesla et co-fondateur d’OpenAI, Karpathy est connu depuis longtemps pour sa capacité à simplifier sans trahir. Ses cours de deep learning attirent des millions de vues sur YouTube, ses projets micrograd et nanogpt ont déjà formé une génération de développeurs. MicroGPT, lui, est autre chose.
« C’est le résultat d’une décennie d’obsession à simplifier les grands modèles de langage à leur essence », écrit-il sur son blog le 12 février 2026. Le fichier unique, disponible sur GitHub Gist et directement sur karpathy.ai/microgpt.html, contient tout le nécessaire pour entraîner et faire tourner un GPT : un tokeniseur, un moteur de rétropropagation automatique, une architecture proche de GPT-2, l’optimiseur Adam, et les boucles d’entraînement et d’inférence. Zéro bibliothèque tierce. Uniquement Python standard.
Ce que 200 lignes font vraiment
Pour démontrer le concept, MicroGPT s’entraîne sur une liste de 32 000 prénoms. L’objectif est modeste : apprendre les patterns statistiques des noms anglais pour en générer de nouveaux. Mais les mécanismes déployés sont exactement ceux des grandes IA actuelles, comme le détaille le blog officiel de Karpathy.
Le tokeniseur associe chaque caractère unique à un identifiant numérique, plus un token spécial de début et fin de séquence. L’autograd est implémenté dans une classe Value de quelques dizaines de lignes, reproduisant fidèlement ce que PyTorch fait en coulisses. Rétropropagation, règle de la chaîne, gradients locaux : tout y est, en scalaires simples plutôt qu’en tenseurs. L’architecture suit GPT-2 avec quelques simplifications : RMSNorm à la place de LayerNorm, ReLU au lieu de GeLU, sans biais dans les matrices. L’attention multi-têtes est présente, avec un cache clé-valeur explicite.
Sur un MacBook, l’entraînement complet prend environ une minute. La perte démarre autour de 3,3 (hasard pur sur 27 tokens) et descend vers 2,37. À l’inférence, le modèle génère des prénoms plausibles comme « kamon », « vialan » ou « areli », qui n’existaient pas dans les données d’origine.
À lire aussi
Un parcours pédagogique en six fichiers
Karpathy ne s’est pas contenté de publier le fichier final. MicroGPT propose une progression en six étapes, de train0.py à train5.py, chaque fichier ajoutant une brique à l’édifice. Le premier commence avec une simple table de comptage bigramme, sans réseau ni gradient. Le deuxième ajoute un réseau de neurones et les gradients calculés à la main. Le troisième introduit l’autograd automatique. Le quatrième greffe les embeddings de position, l’attention mono-tête, la normalisation et les connexions résiduelles. Le cinquième passe à l’attention multi-têtes et empile les couches pour obtenir l’architecture GPT complète. Le sixième substitue SGD par Adam, ce qui donne le fichier final.
Cette approche « pelure d’oignon » permet à un débutant de suivre chaque ajout et d’en comprendre la motivation. Un notebook Google Colab est disponible pour tester directement dans le navigateur, sans rien installer. Pour aller plus loin, un second Gist nommé build_microgpt.py regroupe toutes ces versions avec les différences visibles à chaque étape.
Hacker News s’emballe
Sur Hacker News, où le thread a récolté plusieurs centaines de commentaires en quelques heures, les réactions dépassent le simple enthousiasme. Des développeurs ont déjà porté MicroGPT en Rust, créé des variantes en JavaScript utilisables depuis un QR code, et adapté le code pour générer des prénoms coréens avec une visualisation interactive du pipeline. « Entre cela, nanoGPT et la série Zero to Hero, Karpathy a probablement fait plus pour la formation en apprentissage machine que la plupart des cursus universitaires », résume un commentateur du fil de discussion.
Le consensus est que ce type de projet force à comprendre toute la chaîne de bout en bout, là où PyTorch ou Hugging Face cachent les mécanismes derrière des couches d’abstraction. Karpathy lui-même décrit MicroGPT comme un « projet artistique » autant que pédagogique, et mentionne avec fierté que le code se découpe parfaitement en trois colonnes imprimées.
Ce que MicroGPT ne couvre pas
Karpathy est transparent sur les écarts avec les systèmes en production. Entre MicroGPT et GPT-4, la différence n’est pas algorithmique mais d’échelle et d’ingénierie. Les données passent de 32 000 prénoms à des billions de tokens d’internet. Le tokeniseur caractère par caractère cède la place à BPE (Byte Pair Encoding) avec un vocabulaire de 100 000 tokens. L’autograd scalaire devient des tenseurs sur GPU. Le modèle de 4 192 paramètres se transforme en un modèle de plusieurs centaines de milliards.
L’architecture reste fondamentalement la même : attention pour la communication entre tokens, réseau de neurones pour le traitement local, connexions résiduelles pour stabiliser l’entraînement. Les variantes modernes comme RoPE pour les embeddings de position ou les couches Mixture of Experts modifient les briques sans changer la logique d’ensemble. « Si vous comprenez MicroGPT, vous comprenez l’essence algorithmique des LLM », écrit Karpathy. Le reste n’est que de la performance.
L’éducation en IA change d’outil
La publication arrive dans un contexte particulier. Alors que les grands laboratoires se livrent une course aux paramètres et aux contrats, MicroGPT défend une autre valeur : la compréhension profonde plutôt que la vitesse d’adoption. Selon les discussions sur Hacker News, plusieurs universités examinent déjà l’intégration du projet dans leurs cours de deep learning. L’absence totale de dépendances le rend particulièrement adapté à l’enseignement : aucun problème de version, aucun conflit de librairie, un seul fichier à télécharger.
Des contributeurs travaillent déjà sur des versions compatibles GPU qui conservent la lisibilité du code original. Karpathy a indiqué qu’il continuerait à enrichir la documentation accompagnatrice, dans la continuité de sa série « Zero to Hero » sur YouTube. La prochaine étape naturelle, selon plusieurs participants au thread, serait un port optimisé pour des jeux de données plus conséquents, ce qui rapprocherait MicroGPT de son prédécesseur nanoGPT, plus performant mais nettement moins accessible aux débutants.