Google crée une voix presque humaine

Pixels

Par Le Monde

21 septembre 2016

327

Google crée une voix presque humaine

Par Morgane Tual Le 12 septembre 2016 à 15h28

L’entreprise d’intelligence artificielle DeepMind, rachetée par Google, a utilisé une méthode d’apprentissage des machines pour créer des voix très réalistes.

Google DeepMind a inventé une nouvelle manière de créer des voix synthétiques. | Quentin Hugon / Le Monde

Bien qu’ayant connu d’importantes améliorations ces dernières années, les voix synthétiques des GPS ou des assistants vocaux comme Siri restent relativement hachées et sonnent « robotiques » : impossible de les confondre avec la voix humaine. Mais cela pourrait bien changer. Jeudi 8 septembre, l’entreprise d’intelligence artificielle DeepMind, rachetée par Google en 2014, a présenté sur son site Wavenet, une nouvelle technologie permettant de générer une voix quasiment identique à celle des humains.

Jusqu’à présent, les voix synthétiques étaient fabriquées de deux manières. La première consistait à enregistrer la voix d’une personne prononçant des milliers de mots, et d’assembler ces sons pour créer des phrases. La seconde simule une voix de manière 100 % synthétique. Ce qui donne, selon les sons mis en ligne par DeepMind, ce type de résultats :

Analyse du spectre sonore

DeepMind a suivi un autre chemin, en se basant sur le « deep learning », une méthode d’apprentissage des machines qui a déjà donné d’impressionnants résultats dans d’autres domaines. Elle a « entraîné » son programme en lui fournissant une gigantesque base de données de mots prononcés par un humain, dont il a analysé le spectre sonore. Il en a tiré la capacité de créer par lui-même de nouveaux spectres sonores, et donc de nouveaux sons. Il suffit ensuite de lui fournir le texte à prononcer pour que le système fonctionne. Voici à quoi ressemble la voix synthétique créée par Wavenet :

Le résultat est encore imparfait, puisqu’il est toujours possible de distinguer la voix de Wavenet de celle d’un humain. Mais celle-ci est beaucoup plus fluide et réaliste que celles auxquelles nous avons été habitués, et marque un progrès notable dans ce domaine. Cet outil prend aussi en compte les respirations. Reste à voir s’il se montrera aussi performant en dehors des exemples que DeepMind choisit soigneusement d’exposer sur son site.

Lire nos explications : Comment le « deep learning » révolutionne l'intelligence artificielle

Interactions avec la machine

Cette évolution n’est pas anodine à l’heure où l’interface graphique cède de plus en plus de terrain à la voix, qu’il s’agisse des assistants vocaux comme Siri (Apple), Cortana (Microsoft), Alexa (Amazon) et bientôt Assistant (Google). L’objectif de ces entreprises est de permettre à l’utilisateur, à terme, d’interagir avec la machine en utilisant le langage naturel, comme il échangerait avec un autre humain.

Wavenet ne se limite toutefois pas à la voix. Puisque ce programme se base sur le spectre sonore, il peut s’appliquer à d’autres types de sons. « On a pensé que ça pourrait être amusant d’essayer de générer de la musique », expliquent les ingénieurs sur le site de l’entreprise. Ils ont donc fourni à la machine des extraits de piano classique, et celle-ci a proposé des compositions de son cru. La créativité des machines est un autre sujet de recherche pour Google, qui a créé cet été une équipe entièrement consacrée à cette question.

Google DeepMind, entreprise spécialisée dans le « deep learning », a été rendue célèbre en mars pour son exploit dans le jeu de go. Son programme, AlphaGo, avait réussi à battre le Sud-Coréen Lee Sedol, souvent considéré comme le meilleur joueur mondial. Une performance que les experts n’attendaient pas avant dix ou quinze ans. Basée à Londres, l’entreprise s’est aussi fait remarquer plus récemment en annonçant plusieurs partenariats avec les hôpitaux londoniens, notamment pour faciliter le traitement de certains cancers.

Lire l'intégralité de l'article...

TagsIntelligence artificielle Pixels

KelNews

Top Menu

Menu Principal

Google crée une voix presque humaine

Analyse du spectre sonore

Interactions avec la machine

Articles associés