GitHub entraîne son IA sur votre code privé

30 jours. C’est le délai que GitHub accorde à ses 150 millions d’utilisateurs pour empêcher que leur code, y compris celui stocké dans des dépôts privés, serve de carburant aux modèles d’IA de Microsoft. Passé le 24 avril, la collecte s’enclenchera par défaut, sans demander la permission à personne.

Le retournement que personne n’a oublié

GitHub avait pourtant pris l’engagement inverse. Après la polémique de 2022, quand la plateforme avait entraîné OpenAI Codex sur des milliards de lignes de code public sans prévenir les auteurs, l’entreprise avait reculé. Elle avait désactivé la collecte de données d’interaction pour l’entraînement de ses modèles. Cet épisode avait déclenché un recours collectif, Doe v. GitHub, toujours en cours devant la cour fédérale de Californie, où des développeurs réclament un milliard de dollars pour violation de leurs droits d’auteur, selon Bloomberg Law.

Deux ans plus tard, le vent a tourné. Mario Rodriguez, directeur produit de GitHub, a publié le 25 mars un billet de blog annonçant la reprise de la collecte. Son argument : l’injection de données d’interaction provenant des employés de Microsoft aurait amélioré les performances de Copilot de façon mesurable, avec un taux d’acceptation des suggestions en hausse dans plusieurs langages de programmation.

Ce que GitHub aspire, concrètement

La liste de ce qui sera récolté dépasse le simple extrait de code. GitHub veut récupérer les sorties du modèle que vous acceptez ou modifiez, les entrées envoyées à Copilot (extraits de code montrés au modèle), le contexte autour de la position de votre curseur, les commentaires et la documentation que vous rédigez, les noms de fichiers et la structure de vos dépôts, vos échanges avec les fonctionnalités de Copilot (chat, suggestions en ligne), et même vos retours (pouces en haut ou en bas).

Autrement dit, chaque interaction avec l’assistant de code devient une pièce dans la machine d’apprentissage de Microsoft. Et cela inclut les dépôts privés, qui portent décidément mal leur nom. La FAQ officielle le précise noir sur blanc : si un utilisateur de Copilot travaille activement dans un dépôt privé, les extraits de code peuvent être collectés et utilisés pour l’entraînement. La mention « au repos » revient plusieurs fois dans les documents de GitHub pour distinguer ce qui est collecté (le code en cours d’utilisation) de ce qui ne l’est pas (le code qui dort sur un serveur). Une nuance qui redéfinit le sens du mot « privé » tel que la plupart des développeurs le comprennent.

Qui est touché, qui est épargné

Les comptes Copilot Business et Copilot Enterprise échappent à la collecte, protégés par les termes de leurs contrats. Les étudiants et enseignants bénéficiant de l’accès gratuit à Copilot sont aussi exemptés, précise The Register. Ce sont les abonnés individuels, Copilot Free, Pro et Pro+, qui constituent la cible. Et ils représentent l’écrasante majorité de la base d’utilisateurs.

La logique économique est limpide. Les clients enterprise paient entre 19 et 39 dollars par mois et par siège pour une confidentialité contractuelle. Les utilisateurs individuels, souvent des indépendants ou des contributeurs open source, se retrouvent dans la catégorie par défaut : celle qui nourrit les modèles. GitHub justifie cette approche en citant les « pratiques établies de l’industrie » et mentionne qu’Anthropic, JetBrains et sa maison mère Microsoft appliquent des politiques similaires d’opt-out.

L’opt-out à l’américaine, le casse-tête européen

Pour désactiver la collecte, il faut se rendre dans les paramètres de son compte, section « Privacy », et basculer le réglage « Allow GitHub to use my data for AI model training » sur « Disabled ». Si vous aviez déjà refusé la collecte par le passé, votre choix reste enregistré. Pour tous les autres, c’est oui par défaut.

Ce mécanisme d’opt-out soulève une question juridique que The Register pointe explicitement : en Europe, le RGPD impose le consentement préalable (opt-in) pour le traitement de données personnelles. GitHub applique ici les « normes américaines », comme le formule le média britannique, c’est-à-dire un régime où le silence vaut acceptation. Le décalage entre les deux approches n’a rien d’anodin pour les développeurs européens soumis à la réglementation de l’UE. La question de savoir si des extraits de code constituent des données personnelles au sens du RGPD reste un terrain juridique disputé, mais la structure des dépôts, les commentaires et les habitudes de navigation que GitHub collecte pourraient bien franchir cette frontière.

La communauté vote avec des pouces vers le bas

Sur le forum communautaire de GitHub, la discussion consacrée à l’annonce comptait, au moment de la publication, 59 votes négatifs contre seulement 3 réactions positives. Parmi les 39 commentaires, une seule voix défendait la décision : celle de Martin Woodward, vice-président des relations développeurs chez GitHub, rapporte The Register.

Sur Hacker News, le fil de discussion a bondi en tête des classements avec un titre qui résume l’exaspération : « Si vous ne vous désactivez pas avant le 24 avril, GitHub entraînera ses modèles sur vos dépôts privés. » Le sentiment dominant oscille entre la résignation et l’envie de migrer vers des alternatives auto-hébergées comme Gitea ou Forgejo.

Cette levée de boucliers n’est pas nouvelle. En novembre 2022, le recours collectif Doe v. GitHub avait cristallisé la colère des développeurs open source qui voyaient leur travail aspiré sans crédit ni compensation. Le procès, toujours pendant devant le Ninth Circuit selon Bloomberg Law, accuse GitHub, Microsoft et OpenAI d’avoir entraîné Codex (le modèle derrière la première version de Copilot) sur du code protégé par des licences qui exigent l’attribution. Relancer la collecte en plein contentieux judiciaire relève soit de la confiance absolue, soit du pari calculé.

Le vrai enjeu : la course aux données d’entraînement

Derrière cette décision, il y a une réalité que toute l’industrie de l’IA affronte : les données d’entraînement de qualité se raréfient. Les modèles de langage actuels ont déjà ingéré l’essentiel du web public. Pour continuer à progresser, il faut des données fraîches, contextualisées et représentatives de vrais usages. Les interactions des développeurs avec Copilot, des millions de sessions quotidiennes où un humain corrige, accepte ou rejette les suggestions d’une IA, constituent un gisement d’une valeur immense pour affiner les modèles de code.

Microsoft n’est pas seul dans cette course. Google utilise les retours des utilisateurs de Gemini. Anthropic collecte les échanges avec Claude pour améliorer ses modèles, sauf désactivation. La tendance est claire : l’opt-out devient la norme chez les géants de l’IA, et les données d’utilisation, autrefois considérées comme de simples métriques, se transforment en matière première stratégique.

Comment protéger son code avant le 24 avril

La marche à suivre tient en trente secondes : connectez-vous à GitHub, ouvrez la page des paramètres Copilot (/settings/copilot/features), et désactivez l’option d’entraînement dans la section « Privacy ». Si vous gérez plusieurs comptes, répétez l’opération pour chacun d’entre eux, rappelle HowToGeek.

Pour les organisations qui utilisent des comptes individuels plutôt que Business ou Enterprise, le risque est réel : un seul développeur qui oublie de désactiver l’option expose potentiellement des extraits de code propriétaire. Le 24 avril approche, et la case sera cochée par défaut.

Le procès Doe v. GitHub attend une décision du Ninth Circuit dans les prochains mois. Si la cour d’appel reconnaît que l’entraînement sur du code sous licence constitue une violation du droit d’auteur, la politique de collecte de GitHub pourrait passer du statut de sujet de discussion communautaire à celui de litige à plusieurs milliards.

GitHub va entraîner son IA sur votre code privé, et vous avez 30 jours pour l’empêcher

Le retournement que personne n’a oublié

Ce que GitHub aspire, concrètement

Qui est touché, qui est épargné

L’opt-out à l’américaine, le casse-tête européen

La communauté vote avec des pouces vers le bas

Le vrai enjeu : la course aux données d’entraînement

Comment protéger son code avant le 24 avril

À lire aussi

Partager

Laisser un commentaire Annuler la réponse

Articles similaires

Sony stoppe ses cartes mémoire et augmente la PS5 : quand l’IA vide les rayons

Apple enterre le Mac Pro : 20 ans, 7 000 dollars et aucun héritier

Netflix franchit les 20 dollars : le prix a doublé, pas le service