Google DeepMind a inventé une nouvelle manière de créer des voix synthétiques. | Quentin Hugon / Le Monde

Bien qu’ayant connu d’importantes améliorations ces dernières années, les voix synthétiques des GPS ou des assistants vocaux comme Siri restent relativement hachées et sonnent « robotiques » : impossible de les confondre avec la voix humaine. Mais cela pourrait bien changer. Jeudi 8 septembre, l’entreprise d’intelligence artificielle DeepMind, rachetée par Google en 2014, a présenté sur son site Wavenet, une nouvelle technologie permettant de générer une voix quasiment identique à celle des humains.

Jusqu’à présent, les voix synthétiques étaient fabriquées de deux manières. La première consistait à enregistrer la voix d’une personne prononçant des milliers de mots, et d’assembler ces sons pour créer des phrases. La seconde simule une voix de manière 100 % synthétique. Ce qui donne, selon les sons mis en ligne par DeepMind, ce type de résultats :

Analyse du spectre sonore

DeepMind a suivi un autre chemin, en se basant sur le « deep learning », une méthode d’apprentissage des machines qui a déjà donné d’impressionnants résultats dans d’autres domaines. Elle a « entraîné » son programme en lui fournissant une gigantesque base de données de mots prononcés par un humain, dont il a analysé le spectre sonore. Il en a tiré la capacité de créer par lui-même de nouveaux spectres sonores, et donc de nouveaux sons. Il suffit ensuite de lui fournir le texte à prononcer pour que le système fonctionne. Voici à quoi ressemble la voix synthétique créée par Wavenet :

Le résultat est encore imparfait, puisqu’il est toujours possible de distinguer la voix de Wavenet de celle d’un humain. Mais celle-ci est beaucoup plus fluide et réaliste que celles auxquelles nous avons été habitués, et marque un progrès notable dans ce domaine. Cet outil prend aussi en compte les respirations. Reste à voir s’il se montrera aussi performant en dehors des exemples que DeepMind choisit soigneusement d’exposer sur son site.

Interactions avec la machine

Cette évolution n’est pas anodine à l’heure où l’interface graphique cède de plus en plus de terrain à la voix, qu’il s’agisse des assistants vocaux comme Siri (Apple), Cortana (Microsoft), Alexa (Amazon) et bientôt Assistant (Google). L’objectif de ces entreprises est de permettre à l’utilisateur, à terme, d’interagir avec la machine en utilisant le langage naturel, comme il échangerait avec un autre humain.

Wavenet ne se limite toutefois pas à la voix. Puisque ce programme se base sur le spectre sonore, il peut s’appliquer à d’autres types de sons. « On a pensé que ça pourrait être amusant d’essayer de générer de la musique », expliquent les ingénieurs sur le site de l’entreprise. Ils ont donc fourni à la machine des extraits de piano classique, et celle-ci a proposé des compositions de son cru. La créativité des machines est un autre sujet de recherche pour Google, qui a créé cet été une équipe entièrement consacrée à cette question.

Google DeepMind, entreprise spécialisée dans le « deep learning », a été rendue célèbre en mars pour son exploit dans le jeu de go. Son programme, AlphaGo, avait réussi à battre le Sud-Coréen Lee Sedol, souvent considéré comme le meilleur joueur mondial. Une performance que les experts n’attendaient pas avant dix ou quinze ans. Basée à Londres, l’entreprise s’est aussi fait remarquer plus récemment en annonçant plusieurs partenariats avec les hôpitaux londoniens, notamment pour faciliter le traitement de certains cancers.