Trois secondes. C’est le temps qu’il faut aujourd’hui à une intelligence artificielle pour copier votre voix, celle de votre mère, ou celle d’un présentateur star de la radio américaine. En février 2026, David Greene, ancien animateur de l’émission « Morning Edition » sur NPR pendant plus de dix ans, a déposé plainte contre Google. Son accusation : le géant californien aurait reproduit sa voix pour animer les podcasts générés par NotebookLM, son outil d’IA, sans jamais lui demander son accord. L’affaire a relancé une question que peu de gens se posent : comment une machine parvient-elle à copier une voix humaine aussi vite, et aussi bien ?

Votre voix, traduite en équation

Tout commence par un spectrogramme. Quand vous parlez, votre voix produit des ondes sonores. L’IA les convertit en une image appelée spectrogramme de Mel, une sorte de carte thermique qui représente les fréquences de votre voix au fil du temps. Le grave en bas, l’aigu en haut, le temps qui défile de gauche à droite. Cette représentation visuelle du son est la matière première du clonage vocal.

À partir de ce spectrogramme, un réseau de neurones extrait ce qui rend votre voix unique : la hauteur moyenne, les variations de rythme, les micro-pauses entre les mots, la façon dont vous accentuez certaines syllabes, votre timbre. Toutes ces caractéristiques sont compressées en un vecteur numérique, que les chercheurs appellent « empreinte vocale » ou speaker embedding. C’est l’ADN mathématique de votre voix, résumé en quelques centaines de chiffres.

De 3 secondes d’audio à une voix complète

Le bond technologique décisif date de janvier 2023, avec la publication de VALL-E par des chercheurs de Microsoft. Ce modèle, décrit dans un article sur arXiv, traite la synthèse vocale comme un problème de langage. Au lieu de manipuler directement des ondes sonores, VALL-E découpe l’audio en petits « jetons » numériques (des codes discrets produits par un codec neural) et les assemble comme un modèle de langage assemble des mots. Le modèle a été entrainé sur 60 000 heures de parole en anglais, soit des centaines de fois plus que les systèmes précédents.

Le résultat : 3 secondes d’enregistrement suffisent pour que le système comprenne les caractéristiques d’une voix qu’il n’a jamais entendue, puis génère de nouvelles phrases dans cette voix. Le modèle préserve même l’émotion et l’environnement acoustique de l’échantillon original. Si vous lui donnez un extrait enregistré dans une pièce qui résonne, la voix synthétisée résonnera aussi.

Depuis, les outils commerciaux ont démocratisé cette technologie. ElevenLabs, Resemble AI ou Fish Audio permettent à n’importe qui de cloner une voix via une simple interface web. Le processus tient en deux étapes : vous uploadez un échantillon audio, le système construit l’empreinte vocale, puis vous tapez du texte et l’IA le prononce avec cette voix. Le clonage « instantané » fonctionne avec quelques secondes d’audio. Le clonage « professionnel » demande quelques minutes d’enregistrement pour capturer plus de nuances.

Les trois étages de la machine

Un système de clonage vocal moderne fonctionne en trois couches. La première est l’encodeur : il analyse l’échantillon audio et extrait l’empreinte vocale. C’est lui qui « comprend » ce qui distingue votre voix de toutes les autres.

La deuxième couche est le synthétiseur. Il prend deux entrées, un texte et une empreinte vocale, et génère un spectrogramme de Mel qui combine le contenu du texte avec le style de la voix cible. Les systèmes récents utilisent des architectures de type transformer (la même famille de modèles que ChatGPT) ou des modèles de diffusion, qui affinent progressivement un signal bruité jusqu’à obtenir un spectrogramme réaliste.

La troisième couche est le vocodeur. Il transforme le spectrogramme en signal audio réel, les ondes sonores que vous entendez. Les vocodeurs neuraux comme HiFi-GAN ont considérablement réduit l’effet « robot » qui trahissait les anciennes synthèses vocales. Le son produit est fluide, avec des respirations naturelles et des variations de débit qui trompent l’oreille humaine.

36 000 signalements de fraude en un an

Le revers de cette accessibilité se mesure en chiffres. En 2025, la FTC (Federal Trade Commission, le régulateur américain du commerce) a reçu plus de 36 000 signalements de fraudes liées au clonage vocal, selon le site Silent Security qui compile les données fédérales. Les Américains ont perdu près de 3 milliards de dollars dans des « arnaques à l’imposteur » en 2024, d’après Consumer Reports, et le clonage vocal en est devenu l’outil de prédilection.

Le scénario le plus répandu est l’arnaque dite « aux grands-parents ». Un escroc clone la voix d’un petit-enfant à partir d’une vidéo publiée sur les réseaux sociaux, appelle les grands-parents en simulant une urgence (accident, arrestation) et demande un virement immédiat. Le FBI a émis plusieurs alertes sur ce type de fraude. L’audio deepfake est plus convaincant que la vidéo truquée : quand on reçoit un appel téléphonique, on ne s’attend pas à devoir vérifier l’authenticité de la voix.

Au-delà des arnaques, le clonage vocal sert aussi la manipulation politique. Des enregistrements audio fabriqués de responsables politiques ont circulé pendant des périodes électorales dans plusieurs pays. Contrairement aux deepfakes vidéo, que le public commence à repérer, les deepfakes audio passent sous le radar.

Les lois rattrapent (lentement) la technologie

L’Europe et les États-Unis tentent d’encadrer ces usages. Le AI Act européen, dont l’application complète est prévue pour aout 2026, imposera un étiquetage obligatoire des contenus audio générés par IA. Les entreprises qui ne respecteront pas cette obligation risquent des amendes pouvant atteindre 6 % de leur chiffre d’affaires mondial.

Aux États-Unis, le TAKE IT DOWN Act, signé en mai 2025, criminalise la diffusion de contenus intimes non consentis produits par IA, y compris l’audio. Les contrevenants risquent jusqu’à trois ans de prison. Plusieurs États (Californie, Texas, New York) ont adopté des lois supplémentaires ciblant l’utilisation de voix clonées dans la publicité politique et la fraude.

L’affaire Greene contre Google pose une question juridique inédite : une voix est-elle protégée comme un droit à l’image ? Si les tribunaux tranchent en faveur du présentateur, cela pourrait créer un précédent obligeant toutes les entreprises d’IA à obtenir un consentement explicite avant d’entrainer leurs modèles sur des voix identifiables.

Comment se protéger au quotidien

En attendant que la loi rattrape la technologie, plusieurs réflexes simples permettent de limiter les risques. Le premier : établir un mot de passe familial. Un mot ou une phrase que seuls vos proches connaissent, à demander en cas d’appel suspect. Si « votre fils » vous appelle en panique pour réclamer de l’argent, demandez le mot de passe avant de raccrocher.

Le deuxième réflexe : vérifier par un autre canal. Si un appel vous semble douteux, raccrochez et rappelez la personne sur son numéro habituel. Ne faites jamais confiance au numéro affiché, car le « spoofing » (usurpation du numéro appelant) est trivial à réaliser.

Le troisième : limiter les échantillons vocaux publics. Plus vous publiez de vidéos ou de messages vocaux en ligne, plus le matériau disponible pour un clonage est riche. Trois secondes suffisent, mais un échantillon plus long permet un clone plus convaincant.

Des entreprises comme Microsoft et Pindrop développent des outils d’authentification vocale capables de distinguer une voix réelle d’une voix synthétique. La course entre génération et détection est le défi central du domaine. Pour l’instant, la génération garde une longueur d’avance.