Trois chaînes YouTube ont retrouvé plus de 500 de leurs vidéos dans un jeu de données utilisé par Apple pour entraîner ses modèles d’intelligence artificielle. Personne ne les avait prévenues. Pas un centime versé. Les créateurs viennent de déposer une plainte collective devant un tribunal fédéral californien, rapporte MacRumors.

Un répertoire de 70 millions de clips comme carte au trésor

Au centre de l’affaire se trouve un dataset baptisé Panda-70M. Développé par Snap Research et présenté à la conférence CVPR 2024, ce répertoire référence 70 millions d’extraits vidéo tirés de YouTube. Il ne contient pas les vidéos elles-mêmes, mais quelque chose de tout aussi précieux : les coordonnées exactes pour aller les chercher. Chaque entrée pointe vers une URL YouTube, un identifiant vidéo et un horodatage précis. Une vidéo peut être découpée en dizaines de clips, chacun traité comme un échantillon d’entraînement distinct.

Apple a exploité ce répertoire pour alimenter un article scientifique intitulé STIV (Scalable Text and Image Conditioned Video Generation), publié fin 2024. L’objectif : entraîner un modèle capable de générer des vidéos à partir de texte et d’images. Les chercheurs d’Apple avaient besoin de millions d’exemples vidéo pour y parvenir, et Panda-70M leur offrait une cartographie toute prête du plus grand catalogue vidéo au monde.

Forcer la serrure de YouTube pour nourrir l’IA

Regarder une vidéo sur YouTube, tout le monde peut le faire. La télécharger en masse pour alimenter un algorithme, c’est une autre histoire. La plateforme de Google protège ses contenus par ce que les juristes appellent une « architecture de streaming contrôlé » : le flux vidéo est chiffré, segmenté, et conçu pour être consommé dans le lecteur, pas aspiré par un robot.

Selon la plainte, Apple a volontairement contourné ces protections techniques. « Extraire le moindre clip nécessite d’accéder indépendamment à la vidéo source sur YouTube et d’isoler le segment désigné, un processus qui constitue un acte de contournement distinct pour chaque clip récupéré », détaille le document judiciaire cité par 9to5Mac. Si les 500 occurrences repérées par les plaignants ne représentent que la partie émergée, le volume total de vidéos extraites se chiffre potentiellement en millions.

Les trois chaînes concernées ne sont pas des anonymes. h3h3Productions, créée par Ethan et Hila Klein, cumule des millions d’abonnés sur YouTube. MrShortGame Golf et Golfholics rassemblent chacune des centaines de milliers de passionnés. Leurs avocats décrivent les agissements d’Apple comme « une attaque inadmissible contre la communauté des créateurs dont le contenu alimente une industrie pesant des milliers de milliards de dollars, sans la moindre compensation ».

L’arme juridique que les géants de l’IA n’avaient pas anticipée

Les créateurs n’invoquent pas le droit d’auteur classique. Ils s’appuient sur la section 1201 du Digital Millennium Copyright Act (DMCA), le volet « anti-contournement » de la loi américaine sur le numérique. La nuance est stratégique.

Quand une entreprise copie un contenu protégé pour entraîner une IA, elle peut tenter de se retrancher derrière le « fair use », cette exception qui autorise certains usages sans accord de l’auteur. Des dizaines de procédures en cours tournent autour de cette défense. Mais si l’accès au contenu lui-même a nécessité de forcer une protection technique, le fair use ne s’applique plus. La question n’est plus « aviez-vous le droit de copier ? », elle devient « aviez-vous le droit d’entrer ? ». C’est la différence entre photocopier un livre acheté en librairie et crocheter la porte d’une bibliothèque fermée pour emporter les ouvrages.

Les plaignants réclament des dommages maximaux par infraction au titre du 17 U.S.C. §1203, une injonction permanente interdisant à Apple de puiser dans YouTube, et les frais de justice. Si un tribunal valide cette lecture de la loi, chaque clip extrait sans autorisation pourrait déclencher des pénalités financières distinctes.

Six géants de la tech dans le même filet

Apple n’est pas seul sur le banc des accusés. Les mêmes créateurs ont déposé des plaintes similaires contre Meta, Nvidia, ByteDance et Snap pour utilisation du même type de données. Amazon et OpenAI sont aussi dans le viseur pour avoir exploité Panda-70M. En parallèle, le New York Times poursuit OpenAI et Microsoft, Reddit a attaqué Perplexity, et des professeurs en neurosciences ont ciblé Apple dans une procédure distincte.

Le point commun de toutes ces affaires : l’industrie de l’IA générative a bâti ses produits sur des contenus créés par d’autres, souvent sans demander la permission. Jusqu’ici, la défense du fair use tenait la ligne. Mais l’argument du contournement technique ouvre un second front que les entreprises auront beaucoup plus de mal à neutraliser. Comme le souligne le cabinet Tyz Law Group dans une analyse juridique récente, « si l’accès au contenu a été obtenu par des moyens illicites, la question de savoir si l’entraînement constitue un usage équitable devient secondaire ».

Apple n’a pas encore répondu publiquement. L’affaire n’a pas de date d’audience fixée. Mais la multiplication des recours sous l’angle du DMCA §1201 dessine une tendance que les équipes juridiques de la Silicon Valley surveillent de près. Après des années à débattre du fair use, les créateurs de contenu ont peut-être trouvé la faille dans l’armure de l’IA générative.