Block title
Block content
Cette IA peut copier la voix d’un individu en utilisant seulement une minute d'audio

Cette IA peut copier la voix d’un individu en utilisant seulement une minute d'audio

La startup basée à Montréal Lyrebird a lancé une nouvelle API qui permet aux gens de synthétiser la parole en utilisant seulement un enregistrement d'une minute de l'audio de la voix d’un individu donné. Alors que cette technologie révolutionne le domaine de la voix synthétique, son utilisation potentielle pour commettre une fraude peut être source de préoccupation. 
Prendre votre mot 

Piquer vos mots

Nous entendons régulièrement parler des nouvelles Intelligences Artificielles pour l'édition d'images d'une manière unique ou à travers de meilleurs algorithmes pour la reconnaissance visuelle des logiciels. De toute évidence, beaucoup de travail est fait pour améliorer les techniques de production d'image mais il est très rare de voir émerger de nouvelles technologies d'édition de voix. Le Projet de logiciel VOCO d'Adobe est l'un de ces quelques exemples passionnants, mais maintenant la start-up basée à Montréal Lyrebird pense avoir fait quelque chose d'encore plus impressionnant.

Comme VOCO, l’interface la plus récente du programme d'application de Lyrebird (API) synthétise la parole en utilisant la voix de n'importe quelle personne. Cela dit, ce qui nécessite à VOCO 20 minutes d'audio pour générer sa réplication, la technologie de Lyrebird n'a besoin que d'un échantillon d’une minute de la voix en question pour ensuite la synthétiser.  
Et comme si cela n’était pas assez impressionnant, le nouveau service de Lyrebird ne nécessite pas que la voix dise l'un des mots réels dont il a besoin. Il peut également apprendre à partir d'enregistrements bruyants et mettre des intonations différentes dans l'audio généré pour  indiquer des émotions variées.

Une voix concernée

La nouvelle technologie de Lyrebird est révolutionnaire. En effet. Il ne se contente pas d’éditer des enregistrements audio mais il facilite la tâche pour générer un nouvel enregistrement qui sonne vraiment comme s’il a été parlé par une personne en particulier et non créé par un ordinateur. 
Cela soulève des questions assez intéressantes et non seulement Lyrebird le reconnait mais l'entreprise fait tout pour que tout le monde fasse pareil:

« Les enregistrements vocaux sont actuellement considérés comme de solides éléments de preuve dans nos sociétés, et en particulier dans les juridictions de nombreux pays. Notre technologie remet en question la validité de cette preuve car elle permet de manipuler facilement des enregistrements audio. Cela pourrait avoir des conséquences dangereuses telles que tromper des diplomates ou engendrer des fraudes, et plus généralement tout autre problème causé par le vol l'identité de quelqu'un d'autre [...] Nous espérons que tout le monde va bientôt se rendre compte que cette technologie existe et que copier la voix de quelqu'un d'autre est possible. De manière plus générale, nous voulons attirer l'attention sur le manque de preuves que les enregistrements audio peuvent représenter dans un avenir proche.»

Bref, Lyrebird souhaite que les gens sachent qu'ils peuvent facilement être dupés par audio et espère que cette information empêchera effectivement la fraude: «En délivrant notre technologie au publique et en la rendant accessible à tous, nous voulons nous assurer qu'il n'y aura pas de tels risques.»

Ci-dessous quelques exemples impressionnants des voix de Trump et d'Obama entièrement reconstituées:

Être conscient de la possibilité d'être dupé par audio est une chose mais se protéger contre la fraude potentielle en est une autre. Pourtant, la valeur de la technologie de Lyrebird ne peut être nié en attendant de voir si son utilité pour des choses comme la création d'assistants virtuels plus à consonance réaliste l'emporte sur son potentiel néfaste.