Cet article date de plus de trois ans.

Le billet sciences du week-end. La voix électronique et la révolution auditive

Le billet sciences week-end Gérard Feldzer Le samedi et le dimanche à 7h26 et 9h26

La voix, c’est notre quotidien à la radio, et notre identité. On a tous en tête des voix célèbres, mais aujourd’hui il existe une véritable science de la voix. Les voix synthétiques ont encore des progrès à faire, mais l'intelligence artificielle réalise des merveilles dans le clonage de voix.

franceinfo, Gérard Feldzer

Radio France

Publié le 17/04/2021 10:27

Temps de lecture : 4min

La voix, notre organe de la parole, est un vecteur de nos émotions, de notre passé et de nos désirs. La voix, c'est un peu le reflet de notre âme. (Illustration) (DIGITAL VISION VECTORS / GETTY IMAGES)

Organisée pour la première fois au Brésil le 16 avril 1999, par la Sociedade Brasiliera de Laringologia e Voz, la journée mondiale de la voix, s'est perennisée ensuite dans différents pays comme l'Argentine, la Belgique, les Etats-Unis, la France et l'Espagne, avec comme objectif des rencontres entre professionnels de la voix venant d'horizons multiples. Vendredi 16 avril, on fêtait mondialement la voix, en pleine pandémie...

La voix, l'organe de la parole, vitrine de nos émotions et de nos désirs

La voix fait partie de l’identité de chacun d’entre nous, professionnels ou amateurs et désormais, on fait de plus en plus appel au numérique et à l’intelligence artificielle. Au-delà des mots et sons qu’elle produit, la voix est évidemment l’outil essentiel de communication et d’expression. Elle raconte nos expériences passées, notre état présent, nos désirs. Elle communique nos pensées. Et cela ne date pas d’hier, notamment lorsqu’il fallait s’adresser au plus grand nombre.

Il n’y a pas si longtemps les gardes champêtres transmettaient les informations dans les villages, après un roulement de tambour. Et dans les amphithéâtres de l’Antiquité, l’architecture sophistiquée servait de caisse de résonance et permettait à des spectacles et concerts d’être entendus par des milliers de personnes.

Vendredi 16 avril donc, on célébrait la journée mondiale de la voix. Cette journée est l’occasion d’organiser des rencontres entre professionnels de la voix venant d'horizons multiples. Mais que sait-on exactement de cet organe unique, propre à chacun, au point de constituer une véritable "empreinte", non pas digitale mais vocale ?

La voix est l’outil de travail de beaucoup de professionnels, orateurs, acteurs, chanteurs, souffleurs, imitateurs, traducteurs simultanés, doubleurs, professeurs, etc…, enfin, la médecine scientifique permet maintenant à ceux qui ont perdu leur voix, suite par exemple à des interventions chirurgicales, de la retrouver, si possible conforme à l’originale.

La voix peut être artificiellement reproduite, copiée, hackée. Mais son humanisation reste un terrain de recherche pour l'intelligence artificielle. (Illustration) (DRAFTER123 / DIGITAL VISION VECTORS / GETTY IMAGES)

"Deepfake" et fake news : même combat

Le "deepfake", ou hypertrucage, est une technique de synthèse d'images basée sur l'intelligence artificielle. Elle sert à superposer des fichiers audio et vidéo existants sur d'autres vidéos. Donc à manipuler des voix.

“Au 4e top il sera exactement ….bip “...L’horloge parlante fut l’un des premiers messages automatisés en 1933, à partir de la voix d’un acteur nommé Radiolo. On connaît les messages automatiques dans les gares, aéroports et même les standards téléphoniques. L'intelligence artificielle permet aujourd'hui de rendre ces voix moins robotisées.

Il reste toutefois beaucoup à faire pour les humaniser et y mettre des émotions. Ainsi, aujourd'hui on va encore plus loin avec des logiciels qui transforment les textes en voix.

Ces nouveaux outils numériques font du codage vocal. C’est l’inverse de la reconnaissance vocale.

Alexandre de Brébisson, chercheur en intelligence artificielle

"Avec le logiciel Descript, ce sont des voix artificielles créées sur la base d’acteurs numérisés. On peut aussi associer une traduction simultanée en centaines de langues" , précise Alexandre de Brébisson, chercheur et entrepreneur en intelligence artificielle, à Montréal, fondateur de Lyrebird.

Exemple de voix artificielle non genrée...

Les premiers deepfakes ont été créés à la fin des années 80, au départ destinés au doublage des films. Ces méthodes peuvent faire parler des personnes décédées ou des personnages célèbres. Elles sont néanmoins la porte ouverte à des escroqueries ou des manipulations, et posent des questions éthiques et sociétales.

Comparaison d'une vidéo originale et d'une video deepfake de Mark Zuckerberg, le PDG de Facebook. (Illustration) (THE WASHINGTON POST VIA GETTY IMAGES)

On peut aujourd’hui "hacker" la voix de n’importe qui, grâce à des logiciels, recréer des conversations avec la voix de personnes sans leur consentement. C’est pourquoi notre jeune inventeur, Alexandre de Brébisson, propose une charte de bonne conduite.