Retirez une personne qui tient une guitare dans une vidéo. La guitare tombe au sol, la physique se recalcule, les ombres disparaissent. En face, les meilleurs outils du marché laissent un instrument flottant dans le vide. Netflix vient de publier gratuitement l’IA capable de faire ça, et n’importe qui peut la télécharger.
Le géant du streaming a mis en ligne VOID, pour « Video Object and Interaction Deletion », un modèle d’intelligence artificielle qui ne se contente pas d’effacer un objet dans une vidéo. Il recalcule ce qui se passe ensuite : si le personnage supprimé retenait quelque chose, l’objet chute. Si quelqu’un plongeait dans une piscine, l’eau redevient immobile. Publié sous licence Apache 2.0 sur GitHub et Hugging Face, VOID est le premier modèle IA que Netflix offre au public, et il est utilisable à des fins commerciales sans payer un centime.
Quand les éclaboussures disparaissent avec le plongeur
Les outils classiques de retouche vidéo fonctionnent comme des peintres en bâtiment. Ils effacent l’objet, puis remplissent le trou avec le décor environnant. Le résultat tient la route pour un arrière-plan statique. Mais dès qu’il y a de l’interaction physique, tout s’effondre : une voiture percutée qui continue de se déformer alors que le véhicule responsable a disparu, un splash de piscine sans personne pour le provoquer.
VOID aborde le problème autrement. Le modèle ne se demande pas « quels pixels mettre à la place ? » mais « que se passerait-il physiquement si cet objet n’avait jamais été là ? ». C’est ce qu’Anthropic appelle du raisonnement « contrefactuel », et Netflix est le premier à le faire fonctionner en pratique sur de la vidéo.
Dans les tests présentés par les chercheurs, deux voitures se percutent. VOID supprime l’une d’elles. Résultat : la voiture restante continue sa route, la fumée et les débris disparaissent, la chaussée réapparaît intacte. Plus impressionnant encore : les 25 évaluateurs humains sollicités pour comparer VOID à six concurrents (Runway, MiniMax-Remover, DiffuEraser, ProPainter, ROSE et Generative Omnimatte) l’ont préféré dans 64,8 % des cas. Runway, le plus connu, plafonne à 18,4 %.
Un « quadmasque » qui comprend la scène
L’innovation technique centrale porte un nom barbare : le « quadmasque ». Là où les outils existants utilisent un masque binaire (effacer ou garder ce pixel), VOID utilise un masque à quatre valeurs. Chaque pixel de la vidéo reçoit un code : objet principal à supprimer, zone de chevauchement, zone affectée par les interactions physiques, ou arrière-plan à conserver.
Concrètement, quand vous retirez un personnage qui tenait une guitare, le masque identifie non seulement le personnage, mais aussi la guitare comme « zone affectée ». Le modèle sait alors qu’il doit simuler la chute de l’instrument, pas simplement la figer dans le vide. Cette carte sémantique structurée est ce qui distingue VOID d’un simple remplisseur de pixels.
Le modèle repose sur CogVideoX, un générateur vidéo développé par Alibaba avec 5 milliards de paramètres. Netflix l’a ensuite affiné avec des données d’entraînement synthétiques générées à partir de HUMOTO (des interactions humain-objet simulées dans Blender avec de la capture de mouvement) et Kubric, un outil de Google Research pour les collisions entre objets. Google Gemini 3 Pro analyse la scène pour identifier les zones affectées, et SAM2 de Meta segmente les objets à retirer.
Un cocktail Alibaba-Google-Meta-Netflix, et tout est gratuit
L’aspect le plus surprenant de VOID est peut-être son pedigree. Un modèle vidéo chinois d’Alibaba, affiné par Netflix, utilisant l’IA de Google pour la compréhension de scène et celle de Meta pour la segmentation. Quatre géants technologiques rivaux, réunis dans un seul outil gratuit. Le tout publié sous licence Apache 2.0, la même licence permissive que celle récemment choisie par Google pour Gemma 4.
Le projet est né d’une collaboration entre les chercheurs de Netflix (Saman Motamed, William Harvey, Benjamin Klein, Zhuoning Yuan et Ta-Ying Cheng) et Luc Van Gool de l’université de Sofia en Bulgarie (INSAIT). Le code, le papier de recherche et une démo interactive sont accessibles sur GitHub, arXiv et Hugging Face.
Petit bémol : faire tourner VOID chez soi demande du matériel costaud. Le modèle nécessite une carte graphique avec au moins 40 Go de mémoire vidéo, soit une NVIDIA A100, le type de GPU qu’on trouve dans les centres de données, pas dans un PC de bureau classique. Pour tester sans se ruiner, Netflix propose un notebook Google Colab qui gère l’installation et l’exécution sur un GPU cloud.
Le rêve d’Hollywood et le cauchemar des preuves vidéo
Pour l’industrie du cinéma, les implications sont vertigineuses. Aujourd’hui, effacer un acteur d’une scène ou supprimer un objet indésirable mobilise une équipe d’effets spéciaux pendant des semaines. VOID promet de réduire cette tâche à quelques minutes de calcul. Netflix, qui a déjà investi 600 millions de dollars dans la startup d’IA de Ben Affleck selon les chiffres rapportés par gHacks, positionne clairement la technologie comme un levier de production.
Mais la gratuité de l’outil soulève des questions plus larges. Un modèle capable d’effacer une personne d’une vidéo en recalculant toute la physique de la scène est aussi un outil potentiel de falsification. Les vidéos de surveillance, les preuves judiciaires, les images d’actualité : tout ce qui reposait sur le principe « la vidéo ne ment pas » est fragilisé un peu plus. En mars, le premier ministre malaisien avait déjà eu besoin de trois vidéos pour prouver qu’il était bien réel face à des accusations de deepfake.
Netflix n’a pas annoncé de plan pour intégrer VOID dans ses propres outils de production. Le papier de recherche n’a pas encore été évalué par des pairs. Mais sur Reddit, le modèle a récolté 836 votes positifs en neuf heures sur le forum spécialisé r/LocalLLaMA, signe que la communauté technique a déjà commencé à se l’approprier. La question n’est plus de savoir si ce type de technologie va se démocratiser, mais à quelle vitesse.