Jusqu'à aujourd'hui, les deepfakes, l'un des outils préférés de l'univers de la désinformation, pêchaient au niveau de la voix : il s’agissait soit d’une imitation grossière, soit d’un montage audio qui sonnait faux. C’était sans compter sur une jeune entreprise ukrainienne indirectement récompensée par un Emmy Award pour son clonage vocal de Richard Nixon.

Le 20 Juillet 1969, Neil Armstrong devient le 1er homme à poser le pied sur la Lune, bientôt suivi par Buzz Aldrin. Depuis le bureau ovale, Richard Nixon dit la fierté de chaque américain aux astronautes d’Apollo 11 lors d’un appel téléphonique entré dans l’Histoire : “Bonjour Neil et Buzz !“, lance le président américain aux deux astronautes qui l’écoutent, dans leur scaphandre, debout sur la surface de la Lune. “Je ne peux pas dire à quel point nous sommes fiers. Chaque américain n’a jamais été aussi fier de sa vie !“

Mais deux jours plus tôt, et dans le plus grand secret, Nixon avait demandé à son conseiller, Bill Saphire, de lui écrire un second discours, au cas où la mission tournerait au drame. Le Massuchusetts Institute of Technology en fait un film récompensé par un Emmy Award, pour alerter sur une nouvelle génération de deepfakes : au trucage de la bouche que Barack Obama avait découvert, début 2019, à ses dépens, s’ajoute aujourd’hui une nouvelle technologie de clonage vocal. Nixon n’a jamais prononcé ce second discours. Et pourtant…

Quand Nixon pleure Neil Armstrong

Dans In Event of a Moon Disaster, le centre de virtualité avancée du MIT fait prononcer ce deuxième discours à l’ancien président américain. On y voit Nixon, solennel et grave, assis derrière son bureau à la Maison Blanche, et il commence par ces mots :

“Bonsoir. Le destin a décidé que les hommes qui sont allés sur la Lune pour l’explorer pacifiquement, restent sur la Lune pour y trouver le repos et la paix. Ces hommes courageux, Neil Armstrong et Edwin Aldrin, savent qu’il n’existe aucun espoir de les sauver. Mais ils savent que, dans leur sacrifice, il existe un espoir pour l’humanité. Ils seront pleurés par leur famille et par leurs amis. Ils seront pleurés par leur nation, par le monde entier“.

Alors, certes, la voix est un peu tremblotante mais l’illusion est presque parfaite, au point d’en être très inquiétante. Pour le MIT, au moins, le but pédagogique est atteint et l'Emmy Award du documentaire interactif reçu le 29 septembre dernier l'a consacré. Pour la petite histoire, le trucage image s’appuie sur le vrai discours prononcé par Nixon pour annoncer sa démission, conséquence de l’affaire du Watergate…

"Nous aurons un convertisseur de voix en temps réel d'ici la fin de l'année." Alex Serdiuk, CEO de Respeecher à franceinfo

Ce qui est nouveau, c’est donc cette voix : il ne s’agit ni d’une imitation de Richard Nixon, ni d’un montage à partir d’interventions télévisées ou de discours enregistrés. Nous sommes en présence d’un clonage vocal quasi-parfait à partir de la voix d’un acteur qui a lu ce discours comme Nixon l’aurait fait.

"Notre technologie repose sur l’apprentissage profond et sur l’intelligence artificielle, explique Alex Serdiuk, co-fondateur et CEO de Respeecher à Kiev. Le clonage passe par une phase d’apprentissage. On nourrit la technologie avec le maximum d’enregistrements audio de la voix cible, en l’occurrence celle de Richard Nixon. Pendant ce temps, les ordinateurs moulinent. Cette phase a duré près de trois mois dans le cas de Nixon. Désormais, quinze jours suffisent. Une fois que le système est entraîné, la conversion de la voix ne prend que quelques minutes."



Les progrès sont tels que Respeecher dispose déjà d’un prototype qui fonctionne en temps réel : "Vous parlez dans un micro et la voix clonée sort une demi-seconde plus tard, raconte Alex Serdiuk. On a déjà montré ce prototype à plusieurs clients. J’espère que d’ici la fin de l’année, on aura un convertisseur de voix temps réel opérationnel."

Se faire passer pour le Pape ou Kim Jung-Un ?

Si la technologie impressionne, elle fait aussi froid dans le dos. Comment ne pas imaginer un esprit mal intentionné prendre son téléphone et se faire passer, avec une voix clonée, pour le président français, le Pape ou Kim Jung-Un ?

Pas de quoi faire paniquer Jean-Marc Dumontet, producteur de C Canteloup sur TF1, qui repose entièrement sur des deepfakes visuels depuis la rentrée 2020. Quand il en parle, on sent d’ailleurs que l’homme de spectacle en est devenu l’un des meilleurs spécialistes. Le clonage vocal ne l’inquiète pas davantage :

"Je ne crois pas à ces falsifications grossières qui pourraient induire le public en erreur. Si François Hollande nous annonce qu’il soutient Eric Zemmour, entre les chaînes info et les réseaux sociaux, ce sera démenti et condamné dans les 45 secondes. Et je pense que ça ne servira évidemment pas François Hollande mais ça ne servira pas non plus Eric Zemmour. Donc, je ne vois pas l’intérêt, sauf celui du gag, de la pitrerie, de l’amusement et du divertissement !"

"Le deepfake exige beaucoup de temps pour obtenir un résultat satisfaisant." Jean-Marc Dumontet, producteur de "C'est Canteloup" sur TF1 à franceinfo

Et puis, ces technologies, visuelles et vocales, restent extrêmement sophistiquées :

"Le deepfake exige beaucoup de temps pour peaufiner des personnages, ajoute Jean-Marc Dumontet. Notre technologie est aujourd’hui excellente parce que nous l’utilisons quotidiennement depuis deux ans. Même moi, si je voulais fabriquer un discours d’Emmanuel Macron qui tienne la route, il me faudrait beaucoup de temps."

Alex Serdiuk a beau détenir une technologie exclusive, il sait que le danger existe :

"Tôt ou tard, le clonage vocal tombera entre de mauvaises mains. Il est donc fondamental d’éduquer le public. C’est la raison pour laquelle nous avons participé au projet Nixon. Et en ce qui nous concerne, nous ne lançons aucun projet à la demande d’un client sans qu’il nous fournisse l’autorisation écrite de la voix à cloner ou de ses descendants."

Depuis Kiev, il se défend pourtant d'ouvrir la boite de Pandore : "C'est juste un outil, comme Photoshop, comme Internet. Photoshop est également utilisé dans le monde entier pour créer des affiches et des magazines, pas seulement pour faire mentir des images. Internet, aussi, a une face sombre mais c'est une technologie sans laquelle nous ne pourrions pas nous parler à cet instant. C'est donc juste un outil qui nécessite de la pédagogie."

Luke Skywalker retrouve la voix de ses 20 ans

Cette technologie peut faire peur mais il existe effectivement un autre débouché qui pose des questions d’un autre ordre : le retour sur scène de stars disparues comme Michael Jackson ou Whitney Houston. Leur retour, sous forme d’hologramme, était d’ailleurs déjà lancé avant l’apparition de cette nouvelle technique de clonage vocal qui ouvre de nouvelles perspectives.

Dotées de leur voix clonée, ces silhouettes transparentes pourraient non seulement chanter leurs tubes mais aussi de nouvelles chansons écrites après leur disparition. Pure prospective : Alex Serdiuk reste muet sur ses projets en cours, mais rien n’empêche d’imaginer ce genre d’utilisation.

La technologie de Respeecher a d’ailleurs déjà servi dans ce genre de contexte. Jon Favreau, le réalisateur de la série The Mandalorian, tirée de l’univers Star Wars sur Disney+, a confié à Respeecher le soin de rajeunir de 40 ans la voix de Mark Hamill, alias Luke Skywalker, qui apparaît, jeune, dans le final de la saison 2. L’illusion avait été telle qu’aucun fan n’avait relevé la moindre anomalie au niveau de la voix. Disney+ avait observé et avait attendu presque un an avant de révéler… qu’il s’agissait d’une voix clonée.