Nous entendons régulièrement parler des nouvelles Intelligences Artificielles pour l’édition d’images d’une manière unique ou à travers de meilleurs algorithmes pour la reconnaissance visuelle des logiciels. De toute évidence, beaucoup de travail est fait pour améliorer les techniques de production d’image, mais il est très rare de voir émerger de nouvelles technologies d’édition de voix. Le Projet de logiciel VOCO d’Adobe est l’un de ces quelques exemples passionnants, mais maintenant la start-up basée à Montréal Lyrebird pense avoir fait quelque chose d’encore plus impressionnant.
Comme VOCO, l’interface la plus récente du programme d’application de Lyrebird (API) synthétise la parole en utilisant la voix de n’importe quelle personne. Cela dit, ce qui nécessite à VOCO 20 minutes d’audio pour générer sa réplication, la technologie de Lyrebird n’a besoin que d’un échantillon d’une minute de la voix en question pour ensuite la synthétiser.
Et comme si cela n’était pas assez impressionnant, le nouveau service de Lyrebird ne nécessite pas que la voix dise l’un des mots réels dont il a besoin. Il peut également apprendre à partir d’enregistrements bruyants et mettre des intonations différentes dans l’audio généré pour indiquer des émotions variées.
La nouvelle technologie de Lyrebird est révolutionnaire. En effet. Il ne se contente pas d’éditer des enregistrements audio, mais il facilite la tâche pour générer un nouvel enregistrement qui sonne vraiment comme s’il a été parlé par une personne en particulier et non créé par un ordinateur.
Cela soulève des questions assez intéressantes et non seulement Lyrebird le reconnait, mais l’entreprise fait tout pour que tout le monde fasse pareil :
« Les enregistrements vocaux sont actuellement considérés comme de solides éléments de preuve dans nos sociétés, et en particulier dans les juridictions de nombreux pays. Notre technologie remet en question la validité de cette preuve car elle permet de manipuler facilement des enregistrements audio. Cela pourrait avoir des conséquences dangereuses telles que tromper des diplomates ou engendrer des fraudes, et plus généralement tout autre problème causé par le vol l’identité de quelqu’un d’autre […] Nous espérons que tout le monde va bientôt se rendre compte que cette technologie existe et que copier la voix de quelqu’un d’autre est possible. De manière plus générale, nous voulons attirer l’attention sur le manque de preuves que les enregistrements audio peuvent représenter dans un avenir proche.»
Bref, Lyrebird souhaite que les gens sachent qu’ils peuvent facilement être dupés par audio et espère que cette information empêchera effectivement la fraude : « En délivrant notre technologie au public et en la rendant accessible à tous, nous voulons nous assurer qu’il n’y aura pas de tels risques. »
Ci-dessous quelques exemples impressionnants des voix de Trump et d’Obama entièrement reconstituées :
Être conscient de la possibilité d’être dupé par audio est une chose mais se protéger contre la fraude potentielle en est une autre. Pourtant, la valeur de la technologie de Lyrebird ne peut être nié en attendant de voir si son utilité pour des choses comme la création d’assistants virtuels plus à consonance réaliste l’emporte sur son potentiel néfaste.
27 Avenue Taieb Mhiri
Immeuble Yasmina, bureau 17
2080 Ariana, Tunis, Tunisie
+216 22 774 450
Centre d'affaires TODA 2
Rue du Rhin Napoléon
67100 Strasbourg, France
+33 9 80 80 10 18
Rue du Port Franc, 2A
1003 Lausanne
Suisse
Avenue Mutsaard, 41
1020 Bruxelles
Belgique
+32 2 588 07 54