44 000 heures de vidéos d’humains en train de travailler, et pas une seule séquence de robot. C’est sur cette base qu’a été entraîné DreamDojo, le nouveau modèle de simulation open source de Nvidia pour l’apprentissage robotique.

L’idée paraît presque évidente une fois énoncée. Les robots apprennent habituellement en répétant des gestes dans le monde réel: des heures de collecte de données, d’usure mécanique, et tout est à refaire si l’environnement change. Nvidia propose de court-circuiter ce processus en apprenant d’abord comment le monde physique fonctionne, à partir de vidéos humaines filmées en première personne, puis en adaptant ce savoir à un robot cible.

Jim Fan, directeur de recherche en IA chez Nvidia, appelle ça la « Simulation 2.0 ». La formule résume bien la rupture: contrairement aux moteurs de simulation classiques qui réclament des modèles 3D, des physiques codées à la main et des années d’ingénierie, DreamDojo génère des environnements directement depuis des pixels. Une image de départ, des instructions en langage naturel, et le modèle produit une simulation vidéo de ce que le robot pourrait faire ensuite.

Pas de données robot, pas de problème

Le mécanisme central s’appuie sur ce que l’équipe de recherche de Nvidia nomme les « latent actions ». Plutôt que d’exiger des données avec des commandes motrices précises, le modèle infère depuis les vidéos ce qui a changé entre deux états du monde, sans même connaître le hardware utilisé. N’importe quelle vidéo filmée en première personne devient du coup un jeu de données d’entraînement potentiel pour n’importe quel robot.

Le processus se déroule en deux temps. D’abord, le modèle est pré-entraîné sur 44 000 heures de vidéos humaines, zéro robot dans le cadre. Il absorbe ainsi les règles générales de la physique et du mouvement. Ensuite, il est affiné sur le robot cible pour en apprendre les contraintes mécaniques spécifiques. Fan décrit ça comme séparer « comment le monde fonctionne » de « comment ce robot particulier bouge ».

Les résultats publiés par Nvidia et relayés par The Decoder ce dimanche donnent le vertige: un seul environnement de collecte de données réelles suffit à générer de l’entraînement valide pour 22 comportements nouveaux, dans 10 environnements que le robot n’a jamais vus.

En temps réel, en VR, et tout en open source

La version temps réel de DreamDojo tourne à 10 images par seconde. Stable pendant plus d’une minute de simulation continue, elle prend en charge la télé-opération en réalité virtuelle à l’intérieur du « rêve » simulé (d’où le nom), l’évaluation de politiques de comportement et la planification.

Bref, ça marche sur un robot à 100 dollars (le SO-100) comme sur un bras Franka professionnel. Et tout est disponible en open source: poids du modèle, code, jeu de données d’entraînement et livre blanc publiés publiquement. DreamDojo est construit sur Cosmos, l’autre modèle de monde de Nvidia lancé en 2025, lui aussi open-weight.

Il reste une limite connue à souligner: les performances en simulation ne garantissent pas des résultats équivalents dans le monde physique. Le « sim-to-real gap » hante la robotique depuis des années. Nvidia affirme que sa méthode l’atténue en générant des données directement depuis des vidéos réelles plutôt que depuis des décors synthétiques, mais les tests en conditions industrielles à grande échelle restent à faire.

Et maintenant ? Si la technologie tient ses promesses à l’échelle, elle pourrait changer radicalement le coût d’entrée pour entraîner des robots. Pas de hall d’usine, pas de flotte de machines dédiées à collecter des données. Juste des vidéos, des GPU, et un modèle qui regarde comment les humains bougent.