GPT-2 est un générateur de texte très performant, selon OpenAI, qui en est à l’origine. / QUENTIN HUGON / « LE MONDE »

OpenAI a-t-il créé un programme d’intelligence artificielle (IA) trop dangereux pour être rendu public ? C’est en tout cas ce que prétend un laboratoire américain à but non lucratif, dans un article publié, jeudi 14 février, sur son site Internet. Et copieusement commenté ces derniers jours par la communauté des chercheurs en IA.

Le programme en question s’appelle GPT-2 et sert à générer automatiquement du texte. Il a été « entraîné » à partir de 40 gigabytes de textes, issus de 8 millions de pages Web. « Avec un objectif simple, explique OpenAI, prédire le mot suivant, en se basant sur tous les mots précédents d’un texte. » Il suffit donc de lui donner quelques mots, comme une phrase, pour qu’il rédige une suite. Ce programme « s’adapte au style et au contenu » des mots qu’on lui donne, ce qui permet, selon OpenAI, de « générer une suite réaliste et cohérente sur le sujet choisi » par l’utilisateur. Un roman de fantasy, une recette, un article de presse ou un pamphlet politique par exemple.

Le résultat est impressionnant, assure l’organisation, qui estime que sa technologie représente ce qui se fait de mieux aujourd’hui dans le domaine. Au point de s’en inquiéter. Pour elle, les textes produits par GPT-2 sont tellement réalistes que cette technologie, placée entre de mauvaises mains, pourrait se révéler dangereuse.

L’organisation pointe notamment le risque que ce programme serve à rédiger à la chaîne des articles présentant de fausses informations ou des publications trompeuses sur les réseaux sociaux. Il pourrait aussi, craignent ces chercheurs, être utilisé pour usurper l’identité de quelqu’un en ligne. Pour OpenAI, ces avancées, « combinées à celles de l’imagerie, le son et la vidéo de synthèse », facilitent grandement la création, à moindre coût, « de faux contenus et de campagnes de désinformation ». Elle a donc décidé de ne pas rendre son programme public, contrairement à son habitude.

De belles réussites, mais aussi des ratés

Que vaut vraiment cette technologie ? OpenAI a permis à quelques journalistes de la tester. « Une IA écrit exactement comme moi. Préparez-vous à l’apocalypse des robots », s’est émue une chroniqueuse du Guardian. Elle explique d’ailleurs qu’un article généré par cette technologie a été imprimé dans les pages du Guardian, pour montrer sa performance, mais la rédaction a fait le choix de ne pas le publier en ligne, « parce qu’on ne trouvait aucun moyen d’empêcher qu’il ne soit considéré comme un véritable article, sorti de son contexte ».

Le magazine Wired, spécialisé dans les nouvelles technologies, a lui aussi pu tester ce programme, aux résultats « extrêmement réalistes », selon lui. Il publie quelques exemples (en anglais), notamment un texte ayant pour sujet imposé Hillary Clinton, candidate malheureuse à la dernière élection présidentielle américaine, et le milliardaire américain George Soros. Le texte généré par GPT-2 les accuse de collusion et évoque un enregistrement audio dans lequel les deux personnalités complotent pour faire passer de fausses informations. Si le texte est imprécis et manque de cohérence, il semble les accuser avec beaucoup d’arguments et de faits : bien qu’ils soient entièrement faux, l’ensemble est assez bien réalisé pour qu’il puisse paraître plausible.

OpenAI émet toutefois quelques nuances aux réussites de sa technologie. L’organisation évoque par exemple de nombreux essais ratés, avec des textes trop répétitifs ou absurdes.

« Quand on lui donne des sujets qui sont énormément représentés dans les données (le Brexit, Miley Cyrus, le Seigneur des anneaux, etc.), il est capable de générer un texte correct dans 50 % des cas. Mais l’inverse est aussi vrai : sur des contenus très techniques ou ésotériques, les résultats sont mauvais. »

OpenAI note aussi la présence de passages absurdes (comme lorsque le programme parle de feu sous l’eau) ou de changements de sujets abrupts. Ce qui s’explique par le fait que cette technologie, bien qu’elle réussisse à imiter l’écrit humain, est incapable d’en comprendre le sens.

« Course au clic »

Le problème est qu’en refusant de rendre sa technologie publique, OpenAI rend impossible, pour la communauté scientifique, d’évaluer l’efficacité réelle du système. Ce qui lui a valu de nombreuses critiques. « Où peut-on trouver des preuves que votre système est bien capable de faire ça ? », s’agace par exemple Anima Anandkumar, responsable de la recherche en apprentissage automatique chez Nvidia.

« Quels chercheurs indépendants ont analysé votre système ? Aucun. (…) Si vous pensez que votre système est si efficace, ouvrez-le aux chercheurs. Pas à des journalistes qui font la course au clic. »

Plusieurs ont dénoncé ce qu’ils considèrent être une opération de communication. Zachary Chase Lipton, enseignant à l’université Carnegie Mellon, estime que les résultats d’OpenAI ne méritent pas un tel emballement. « Ils sont intéressants mais pas surprenants. (…) C’est la sorte d’avancée qu’on s’attendrait à voir dans un mois ou deux, de la part de n’importe lequel des dizaines de labos travaillant sur le langage », écrit-il sur son site.

Il faut dire qu’OpenAI est un habitué des coups médiatiques. C’est même dans son ADN : l’organisation a été fondée en 2015 par Elon Musk, coutumier des sorties catastrophistes sur l’IA, dans le but de répondre à ces dangers en développant elle-même des programmes d’IA « plus à même de bénéficier à l’humanité ». Elon Musk s’est depuis mis en retrait, ce qu’il a rappelé samedi après la publication de l’article d’OpenAI.

« Nous ne sommes pas sûrs que ce soit la bonne décision »

Si l’organisation est critiquée, c’est aussi parce qu’elle avait promis de rendre le résultat de ses recherches accessibles à tous, expliquant à l’époque qu’elle voulait « créer de la valeur pour tout le monde, plutôt que pour des actionnaires » – arguant que ces technologies ne devaient pas rester entre les mains de quelques entités riches et puissantes.

Mais visiblement, elle juge le cas de GPT-2 différent. Pour OpenAI, « la communauté de l’IA va devoir s’attaquer à la question de la publication », en mettant en place des standards. L’organisation considère que les gouvernements devraient aussi s’y intéresser, pour « étudier plus systématiquement l’impact social » que pourrait avoir la diffusion de certaines technologies.

« Nous ne sommes pas sûrs aujourd’hui que ce soit la bonne décision », tient toutefois à tempérer OpenAI, mais « nous estimons que cette expérimentation servira d’exemple pour des débats plus nuancés » sur la question de la mise à disposition ou non de telles technologies.