Chaque semaine, plus de 400 millions de personnes tapent des messages dans ChatGPT. Des recettes de cuisine, des lettres de motivation, des symptômes médicaux, parfois des secrets professionnels. La plupart n’ont aucune idée de ce qui arrive à ces conversations une fois le navigateur fermé.

Le trajet d’un message, du clavier au data center

Quand vous envoyez une phrase à ChatGPT, Gemini ou Claude, elle ne reste pas dans votre navigateur. Elle traverse Internet jusqu’à un centre de données, souvent situé aux États-Unis. Là, des milliers de processeurs graphiques (GPU) analysent votre texte et génèrent une réponse, mot par mot. L’échange complet, votre question et la réponse, est stocké sur les serveurs de l’entreprise. Chez OpenAI, ce stockage dure 30 jours pour les utilisateurs de l’API, et jusqu’à suppression manuelle pour les comptes ChatGPT gratuits ou payants.

Google conserve les conversations Gemini pendant 18 mois maximum, même après suppression par l’utilisateur, selon sa politique de confidentialité mise à jour en 2025. Anthropic, l’entreprise derrière Claude, affirme conserver les données 90 jours avant suppression automatique. Trois entreprises, trois politiques, et aucune ne fonctionne exactement de la même façon.

Vos conversations servent (parfois) à entraîner le modèle

Voilà le point qui surprend le plus. Par défaut, chez OpenAI, les conversations des utilisateurs gratuits et payants de ChatGPT peuvent servir à améliorer les futurs modèles. Concrètement, des employés ou des sous-traitants peuvent lire vos échanges pour évaluer la qualité des réponses, et les données servent à ajuster les paramètres du modèle lors de l’entraînement suivant. La documentation officielle d’OpenAI le précise : « Nous pouvons utiliser votre contenu pour entraîner nos modèles. »

Il existe un bouton pour refuser, enfoui dans les paramètres du compte (Settings > Data Controls > Improve the model for everyone). Quand vous le désactivez, vos futures conversations ne servent plus à l’entraînement. Mais les conversations passées, celles échangées avant la désactivation, ont déjà pu être utilisées.

Les clients entreprise (ChatGPT Enterprise, API) bénéficient d’un régime différent. OpenAI s’engage contractuellement à ne pas entraîner ses modèles sur leurs données, sauf si l’entreprise choisit explicitement de partager.

Ce que l’Italie a déclenché en 2023

En mars 2023, l’autorité italienne de protection des données (Garante per la protezione dei dati personali) a pris une décision sans précédent : bloquer ChatGPT sur tout le territoire. Les motifs invoqués tenaient en quatre points : absence d’information aux utilisateurs sur le traitement de leurs données, absence de base juridique pour l’entraînement sur des données personnelles, informations factuellement inexactes générées par le modèle, et absence de vérification d’âge pour les mineurs.

OpenAI a cédé en moins d’un mois. L’entreprise a ajouté un lien vers sa politique de confidentialité en Europe, créé le fameux bouton de désactivation de l’entraînement, et mis en place une vérification d’âge déclarative. ChatGPT a rouvert en Italie fin avril 2023. Ce bras de fer a posé les bases de ce que les régulateurs européens attendent désormais de tous les fournisseurs d’IA générative.

Le RGPD face aux modèles de langage : un casse-tête juridique

Le Règlement général sur la protection des données (RGPD), en vigueur depuis 2018, donne à chaque citoyen européen le droit de demander la suppression de ses données personnelles. Appliquer ce droit à un modèle de langage pose un problème technique majeur. Un modèle comme GPT-4 ou Gemini ne stocke pas vos données sous forme de fichiers. Il les a « digérées » sous forme de paramètres mathématiques, des milliards de chiffres qui représentent des associations statistiques entre les mots. Retirer une conversation spécifique de ces paramètres reviendrait à retirer un ingrédient d’un gâteau déjà cuit.

L’European Data Protection Board (le comité européen qui coordonne les autorités nationales comme la CNIL) travaille depuis 2024 sur des lignes directrices spécifiques à l’IA générative. En décembre 2024, il a publié un avis rappelant qu’un modèle entraîné sur des données collectées illégalement peut lui-même être considéré comme illégal, ce qui ouvre la porte à des sanctions visant les modèles eux-mêmes, pas seulement les bases de données.

La différence entre gratuit et payant n’est pas celle qu’on croit

Beaucoup pensent que payer un abonnement protège automatiquement leurs données. C’est faux chez OpenAI : un abonné ChatGPT Plus à 20 dollars par mois voit ses conversations traitées exactement comme celles d’un utilisateur gratuit, entraînement compris, sauf désactivation manuelle. Seuls les plans Enterprise et Team offrent une séparation stricte par défaut.

Chez Google, la situation est similaire. Les conversations Gemini des comptes gratuits et Google One AI Premium sont utilisables pour l’entraînement, selon les conditions d’utilisation. Seule l’offre Workspace (destinée aux entreprises) bénéficie d’un cloisonnement contractuel. Anthropic se distingue en ne formant pas ses modèles commerciaux sur les conversations des utilisateurs de l’API par défaut, mais les échanges via le site web claude.ai suivent des règles proches de celles d’OpenAI.

Les fuites ne sont pas que théoriques

En mars 2023, un bug chez OpenAI a exposé les titres de conversations d’utilisateurs à d’autres utilisateurs, ainsi que des noms, adresses email et les quatre derniers chiffres de cartes bancaires de certains abonnés ChatGPT Plus. OpenAI a confirmé l’incident dans un billet de blog, estimant que 1,2 % des abonnés Plus actifs pendant une fenêtre de neuf heures avaient été touchés.

Plus récemment, des chercheurs de l’université de Californie à Berkeley et de Google DeepMind ont démontré en novembre 2023 qu’il était possible d’extraire des fragments de données d’entraînement directement depuis ChatGPT, simplement en lui demandant de répéter un mot en boucle (étude « Scalable Extraction of Training Data from (Production) Language Models », publiée sur arXiv). Le modèle finissait par régurgiter des adresses email, des numéros de téléphone et des extraits de textes réels présents dans ses données d’entraînement.

Ce que vous pouvez faire concrètement

Trois gestes réduisent l’exposition de vos données. Le premier : désactiver l’entraînement. Chez OpenAI, le réglage se trouve dans Settings > Data Controls. Chez Google, il faut se rendre sur myactivity.google.com et désactiver l’activité Gemini Apps. Le deuxième : utiliser les modes éphémères. ChatGPT propose un « Temporary Chat » qui ne conserve pas l’historique et n’alimente pas l’entraînement. Le nouveau Lockdown Mode, lancé début 2026, va plus loin en bloquant aussi la rétention de données côté serveur pour les échanges sensibles. Le troisième : ne jamais coller de données confidentielles (mots de passe, documents internes, données de santé) dans un chatbot grand public. Pour un usage professionnel sensible, seules les offres entreprise avec des engagements contractuels offrent des garanties exploitables.

Le AI Act européen, entré en application progressive depuis 2024, imposera d’ici août 2026 aux fournisseurs de modèles d’IA à usage général de publier un résumé détaillé des données d’entraînement utilisées. Pour la première fois, les utilisateurs auront un droit de regard sur ce qui nourrit les modèles qu’ils utilisent chaque jour.