3 secondes d’enregistrement. C’est tout ce qu’il faut aujourd’hui pour cloner une voix avec l’IA. Pas besoin d’un studio, pas besoin de compétences techniques particulières. Un smartphone et une connexion internet suffisent.

L’affaire NPR contre Google, révélée ces derniers jours, a remis le sujet sur la table. Un présentateur star accuse NotebookLM d’avoir reproduit sa voix sans autorisation. Mais au-delà du procès, une question s’impose : comment une machine arrive-t-elle à copier une voix humaine aussi fidèlement ?

Le principe : transformer une voix en équation

Pour comprendre le clonage vocal, il faut d’abord saisir comment l’IA « entend » une voix. Quand vous parlez, votre voix produit un signal sonore – des vibrations dans l’air. Ce signal, une fois numérisé, devient une suite de chiffres. Et des chiffres, une IA sait les analyser.

Les modèles de clonage vocal fonctionnent en deux temps. D’abord, l’analyse : l’IA écoute un échantillon de votre voix et en extrait ce qu’on appelle une « empreinte vocale ». Le timbre, le débit, les intonations, la façon dont vous appuyez sur certaines syllabes. Tout ça se traduit en paramètres mathématiques.

Ensuite, la synthèse. L’IA prend un texte quelconque et le « prononce » en appliquant votre empreinte vocale. Le résultat : une phrase que vous n’avez jamais dite, mais qui sonne exactement comme vous.

De 30 minutes à 3 secondes

Il y a cinq ans, cloner une voix demandait des heures d’enregistrement en studio. Les premiers systèmes de text-to-speech personnalisés avaient besoin de 20 à 30 minutes de parole propre, sans bruit de fond, avec des phrases calibrées.

En 2023, Microsoft a présenté VALL-E, capable de reproduire une voix à partir de 3 secondes d’audio. Trois secondes. Autant dire un message vocal WhatsApp ou un extrait de podcast.

Depuis, la course s’est accélérée. ElevenLabs, PlayHT, Resemble AI… les outils se sont multipliés. Certains sont gratuits. La plupart ne demandent qu’un court échantillon pour générer un clone vocal convaincant. On est passé d’une technologie de laboratoire à quelque chose que n’importe qui peut utiliser depuis son canapé.

Les réseaux de neurones derrière le rideau

Techniquement, ces systèmes reposent sur des architectures appelées « transformers » – les mêmes qui font tourner ChatGPT ou Claude. Sauf qu’au lieu de prédire le prochain mot dans une phrase, ils prédisent le prochain fragment sonore dans un flux audio.

L’IA découpe la voix en petits morceaux (des « tokens audio »), apprend les patterns qui font qu’une voix est unique, puis reconstruit un signal sonore complet. C’est du deep learning appliqué au son, ni plus ni moins.

Les modèles les plus récents intègrent aussi la prosodie – le rythme, les pauses, les montées et descentes de ton qui donnent à une voix son caractère naturel. C’est ce qui fait la différence entre une voix synthétique plate et un clone qui donne des frissons tellement il est réaliste.

Les usages légitimes existent

Avant de crier au scandale, rappelons que cette technologie a des applications positives. Des personnes atteintes de SLA (la maladie de Charcot) ou de cancers de la gorge peuvent « sauvegarder » leur voix avant de la perdre, puis continuer à communiquer avec leur propre timbre via un synthétiseur.

Le doublage de films gagne aussi en qualité. Plutôt que de faire doubler un acteur par quelqu’un d’autre, on peut adapter sa propre voix dans une autre langue. Les livres audio deviennent accessibles à moindre coût.

Mais.

220 000 euros volés avec une fausse voix

En 2019, des escrocs ont cloné la voix du PDG d’une entreprise énergétique allemande pour ordonner un virement de 220 000 euros. Le directeur de la filiale britannique n’y a vu que du feu. L’année suivante, même technique : 35 millions de dollars détournés en se faisant passer pour un directeur d’entreprise.

Selon une enquête McAfee de 2023, une personne sur dix a déjà été ciblée par une arnaque au clonage vocal. Parmi les victimes, 77% ont perdu de l’argent. Le scénario classique : un proche qui appelle en panique, demande un virement urgent. Sauf que ce n’est pas votre proche.

Et ça ne s’arrête pas aux arnaques financières. Des deepfakes audio de politiques ont circulé avant des élections au Royaume-Uni, en Slovaquie, aux Etats-Unis. En janvier 2024, plus de 20 000 électeurs du New Hampshire ont reçu des appels automatisés imitant la voix de Joe Biden pour les dissuader de voter.

Comment se protéger ?

Quelques réflexes à adopter dès maintenant. Si un proche vous appelle avec une demande urgente d’argent, raccrochez et rappelez-le vous-même sur son numéro habituel. Les arnaqueurs comptent sur la panique pour court-circuiter votre jugement.

Certaines banques commencent à abandonner l’authentification vocale, jugée trop vulnérable. Si la vôtre utilise encore la reconnaissance de voix comme sécurité, posez-leur la question.

Côté détection, des outils émergent. Des chercheurs travaillent sur des « filigranes audio » intégrés aux voix synthétiques, et des logiciels d’analyse peuvent repérer les artefacts typiques d’une voix clonée – des micro-irrégularités dans le spectre sonore qu’une oreille humaine ne capte pas.

Et la loi dans tout ça ?

Le cadre juridique court derrière la technologie. En France, le droit à l’image s’étend en théorie à la voix, mais les jurisprudences restent rares. L’AI Act européen, entré en vigueur progressivement depuis 2024, impose la transparence : tout contenu généré par IA doit être identifié comme tel. Sur le papier. Dans les faits, qui vérifie qu’un message vocal reçu sur Telegram est synthétique ou non ?

L’affaire NPR contre Google pourrait créer un précédent. Si un tribunal reconnaît que cloner une voix sans consentement constitue une violation des droits de la personne, ça changerait la donne pour toute l’industrie.

En attendant, la technologie avance plus vite que les lois. Et votre voix, comme vos données, mérite qu’on y fasse attention.