Un auteur qui poursuit OpenAI pour avoir utilisé ses livres doit aujourd’hui prouver, lui-même, que son texte se trouve bien dans les données d’entraînement. Presque impossible, puisque personne en dehors des entreprises IA ne sait exactement ce qui compose ces milliards de fichiers. Le Sénat français vient de retourner cette logique à l’envers. Adopté à l’unanimité le 8 avril 2026, le texte place désormais la charge de la preuve sur les épaules des développeurs d’IA.

Ce que dit la loi, en clair

Le principe juridique établi par la proposition de loi déposée par la sénatrice Laure Darcos est simple à expliquer. Jusqu’ici, si un musicien suspectait que ses morceaux avaient servi à entraîner un générateur de musique, c’était à lui de le démontrer devant un tribunal. Avec ce texte, la situation s’inverse : le juge partira du principe que les contenus culturels ont été utilisés. C’est l’entreprise IA, OpenAI, Anthropic, Google ou une autre, qui devra apporter la preuve contraire.

Concrètement, les développeurs de modèles seront contraints de documenter précisément leurs sources de données d’entraînement et de les produire sur demande judiciaire. Ceux qui ne peuvent pas démontrer l’exclusion d’une oeuvre ou d’un corpus s’exposent automatiquement à une responsabilité juridique. La loi s’applique également aux organisations qui déploient des systèmes d’IA, pas seulement à ceux qui les construisent.

Le Conseil d’État a validé le mécanisme dans un avis rendu le 19 mars 2026, confirmant qu’il n’était contraire ni à la Constitution ni au droit européen. Le texte a été transmis à l’Assemblée nationale le 9 avril, le lendemain même du vote sénatorial.

Pourquoi c’est si difficile de prouver le vol, en pratique

Le problème central, c’est l’opacité totale des bases d’entraînement des grands modèles. GPT-4 d’OpenAI a été entraîné sur des centaines de milliards de mots. Claude d’Anthropic, Gemini de Google, Mistral de la startup française éponyme : aucun de ces acteurs ne publie la liste complète des sources utilisées. Des audits partiels, réalisés par des chercheurs indépendants, ont permis d’identifier des contenus protégés dans certains de ces jeux de données, mais il reste impossible pour un créateur isolé de vérifier si ses propres travaux y figurent.

Aux États-Unis, des dizaines de procédures sont en cours, dont le procès du New York Times contre OpenAI ou celui de Getty Images contre Stable Diffusion. Dans la quasi-totalité des cas, les créateurs ou médias qui attaquent se heurtent à la même difficulté : apporter une preuve que les entreprises IA n’ont aucune obligation de fournir. La France serait le premier pays à inverser formellement cette logique.

Les créateurs saluent, l’industrie s’inquiète

La Sacem, société qui gère les droits des auteurs, compositeurs et éditeurs de musique, a salué le vote comme « une avancée importante pour les créateurs ». Les syndicats de l’édition et les associations d’auteurs ont exprimé des positions similaires. La sénatrice Darcos a résumé l’esprit du texte dans une formule directe : « Nous ne sommes pas contre l’innovation, mais il faut mettre fin au pillage illégal des contenus culturels. »

L’objectif affiché n’est pas de bloquer l’IA ni de déclencher une vague de procès, selon les sponsors du texte. La sénatrice Agnès Evren, co-signataire de la proposition, a précisé que « notre objectif n’est pas de multiplier les procès; c’est d’encourager les acteurs à abandonner les comportements prédateurs pour des modèles de négociation transparents. Aujourd’hui les créateurs ne négocient pas; ils subissent. »

Du côté de l’industrie IA, les réactions ont été plus mesurées. Des commentateurs s’inquiètent des effets sur Mistral AI, la startup française qui concourt face aux géants américains avec des ressources bien inférieures. L’obligation de documenter précisément ses sources d’entraînement représente un coût de conformité non négligeable, plus facile à absorber pour une entreprise comme Google que pour une structure de quelques centaines de salariés.

Ce que ça change, au fond

La portée du texte dépasse la question juridique. En faisant peser la responsabilité sur les entreprises IA, la loi crée une incitation forte à négocier des accords de licence avant d’entraîner les modèles, plutôt qu’après une éventuelle mise en cause. Plusieurs grandes plateformes ont déjà ouvert des discussions avec des éditeurs et des ayants droit depuis que la proposition a été rendue publique en décembre 2025. Les adversaires de longue date de la pratique de collecte massive sans autorisation considèrent que le simple vote sénatorial a déjà modifié les rapports de force.

L’Union européenne a introduit dans l’AI Act une obligation de transparence sur les données d’entraînement, mais les modalités d’application restent floues et les sanctions peu dissuasives pour l’instant. La loi française va plus loin en créant un mécanisme judiciaire directement actionnable par les créateurs.

L’Assemblée nationale, dernier obstacle

Le texte adopté par le Sénat est une proposition de loi, pas un projet gouvernemental. Pour entrer en vigueur, il devra être adopté par l’Assemblée nationale dans les mêmes termes ou faire l’objet d’une commission mixte paritaire en cas de désaccord entre les deux chambres. Le vote unanime au Sénat, tous groupes confondus, constitue un signal politique fort, mais ne garantit pas un calendrier d’adoption rapide à l’Assemblée, où le gouvernement peut ralentir l’examen d’un texte qu’il ne porte pas lui-même.

Les secteurs culturels français, parmi les plus actifs en Europe sur les questions de droits d’auteur, poussent pour une adoption avant la fin de l’année 2026. Si le texte devient loi, la France ouvrira un précédent que d’autres législateurs européens pourraient suivre. Des discussions similaires ont déjà démarré au Parlement européen sur une révision de la directive sur le droit d’auteur dans le marché unique numérique.