En mars 2016, la machine battait l’homme au jeu de go. / FATIH CICEK / « Le Monde »

Encore un nouvel exploit pour AlphaGo. Après être devenu en 2016 le premier programme informatique capable de battre l’humain au go, en écrasant les meilleurs joueurs du monde, le logiciel de Google DeepMind a encore gagné en compétences. Dans un article à paraître, jeudi 19 octobre, dans la prestigieuse revue scientifique Nature, les créateurs d’AlphaGo annoncent avoir mis au point une version considérablement plus puissante de leur programme, et surtout, qui est capable d’apprendre à jouer « sans rien savoir du jeu de go », expliquent-ils sur leur blog.

Si, pour fonctionner, AlphaGo apprenait en se basant notamment sur des millions d’exemples de parties jouées par des humains, AlphaGo Zero – le nom de la nouvelle version – n’a besoin, lui, d’aucun exemple. Les seules informations dont dispose le programme, basé sur un réseau de neurones artificiels, sont les règles du jeu et la position des pierres noires et blanches sur le plateau. A partir de là, pour apprendre, le programme va jouer des millions de parties de parties contre lui-même. Avec des coups aléatoires dans un premier temps, avant d’affiner, jeu après jeu, sa stratégie.

Et le résultat est sans appel : après trois jours d’entraînement seulement, ce programme a battu 100 à 0 AlphaGo Lee, la version du programme qui avait, en mars 2016, réussi la prouesse historique de battre 4-1 le Sud-Coréen Lee Sedol, alors considéré comme le meilleur joueur au monde. AlphaGo Lee avait pourtant nécessité des mois d’entraînement et 30 millions de parties. AlphaGo Zero n’aura eu besoin « que » de 4,9 millions de parties jouées contre lui-même pour écraser AlphaGo Lee. Pour battre AlphaGo Master, une version plus puissante d’AlphaGo, qui avait notamment terrassé en mai 2017 le numéro 1 mondial Ke Jie, 40 jours d’entraînement ont été nécessaires. Qui plus est, AlphaGo Zero nécessite bien moins de ressources informatiques pour fonctionner que ses prédécesseurs.

Lire nos explications : La révolution des neurones artificiels

Une méthode limitée à certains domaines

En mars, le Sud-Coréen Lee Sedol, alors considéré comme le meilleur joueur au monde, a été vaincu par AlphaGo. / Lee Jin-man / AP

« Cette technique est plus puissante que les précédentes versions d’AlphaGo car elle n’est plus contrainte par les limites de la connaissance humaine, expliquent les chercheurs. A la place, elle est capable d’apprendre à partir de zéro avec le meilleur joueur du monde : AlphaGo lui-même. » Cette méthode d’apprentissage « par renforcement », mêlée à d’autres optimisations techniques de DeepMind, se montre donc plus efficace que la précédente, qui combinait de l’apprentissage « supervisé » (basé sur des parties jouées par des humains) et de l’apprentissage par renforcement.

« C’est vraiment impressionnant », estime Tristan Cazenave, professeur à l’université Paris-Dauphine, spécialiste de la programmation des jeux au laboratoire Lamsade. « C’est étonnant qu’il réussisse à aussi bien apprendre à partir de ces entrées minimales. C’est une très bonne nouvelle pour l’intelligence artificielle : on va pouvoir l’appliquer à plein de problèmes différents, car c’est une méthode très générale et très puissante. » Les chercheurs de DeepMind évoquent la possibilité que celle-ci puisse servir dans des domaines aussi divers que la réduction de consommation d’énergie, la conception de nouveaux matériaux ou encore le repliement des protéines.

Toutefois, la méthode conçue par DeepMind ne peut pas s’appliquer à tous les problèmes auxquels se confronte l’intelligence artificielle, bien loin de pouvoir se passer de données humaines dans un nombre de cas considérables. « Pour appliquer cette méthode, il faut que le cadre soit très défini, qu’on ait une représentation solide du domaine, pas trop de flou dans les règles, et que le problème soit bien défini. Cela s’applique bien au jeu car il y a une connaissance parfaite de l’environnement, des règles, et qu’il y a peu d’imprévu », explique Tristan Cazenave. Le go s’y prête donc parfaitement.

« La beauté de la chose est qu’AlphaGo Zero découvre de nouvelles connaissances du go. Il a retrouvé seul des séquences classiques que tout le monde connaît, mais que les humains ont mis des milliers d’années à trouver. Lui, ça lui a pris trois jours. Et il trouve des choses originales et pertinentes qu’on n’avait jamais découvertes. »

« DeepMind a une équipe de rêve »

De quoi donner encore de la matière à réflexion pour les professionnels du go, qui décortiquent avec intérêt les parties effectuées par les différentes versions d’AlphaGo. Certains coups joués par le programme, qui avaient désarçonné Lee Sedol ou Ke Jie, continuent d’intriguer les amateurs de ce jeu extrêmement complexe, inventé en Chine il y a environ 3 000 ans. Dans les compétitions de haut niveau, les coups joués s’inspirent de plus en plus de ceux d’AlphaGo – alors même que la logique d’une partie d’entre eux échappe toujours aux joueurs.

Du côté des chercheurs en intelligence artificielle spécialisés dans le jeu de go, comme Tristan Cazenave, qui travaille depuis des années sur ce sujet, l’excitation l’emporte sur le découragement. « C’est très motivant, au contraire ! Ils ont trouvé une solution élégante à un problème difficile. On a envie de refaire le même programme, de l’étudier, de l’appliquer à autre chose… » Et de saluer la performance de DeepMind, qui a accompli en quelques mois seulement d’importants progrès : « Ils ont travaillé dans un temps record, ils ont été originaux et créatifs… Ils ont une équipe de rêve, à la pointe et très motivée. »

Demis Hassabis est le cofondateur de DeepMind. / JUNG YEON-JE / AFP

Sise à Londres, DeepMind, entreprise spécialisée dans l’intelligence artificielle, a été rachetée en 2014 par Google, quatre ans après sa création. Sa victoire historique dans le jeu de go lui a donné une immense visibilité, mais l’entreprise travaille sur d’autres questions, notamment dans le domaine de la santé. Elle a par exemple signé plusieurs partenariats avec les hôpitaux londoniens, pour faciliter la cartographie de la zone à traiter dans le cancer de la tête et du cou, ou pour créer une application censée aider le personnel hospitalier à détecter le plus possible les cas d’insuffisance rénale aiguë. Ce dernier partenariat lui a d’ailleurs valu un certain nombre de critiques, après le transfert des données de 1,6 million de patients, sans que ceux-ci en aient été suffisamment informés.

Si DeepMind a annoncé en mai qu’AlphaGo ne participerait plus aux compétitions, ses ambitions dans le domaine du jeu ne s’arrêtent pas là : l’entreprise se concentre désormais sur le jeu vidéo Starcraft 2, qui impose de nouveaux défis au monde de l’intelligence artificielle.