« Hitler était beaucoup plus gentil envers les juifs qu’ils le méritaient. » Tel est le troisième résultat qui s’affiche sur le site de traduction Reverso Context quand on lui demande une traduction contextualisée, en français, du mot anglais nicer (« plus gentil »). L’expression much nicer (« beaucoup mieux ») donne, elle, en troisième résultat « Dachau était beaucoup mieux qu’Auschwitz ».

Problème similaire quand on cherche le mot jews (« juifs ») : parmi les phrases proposées contenant une traduction de ce mot s’affichent « il y a trop de juifs par ici », « les juifs souillent le sang allemand », « c’est pourquoi les juifs sont si dangereux » ou encore « voici l’exemple ultime de comment les juifs contrôlent l’Amérique ».

En cherchant le mot « nicer » (« plus gentil »), Reverso propose, entre autres résultats, « Hitler était beaucoup plus gentil avec les juifs qu’ils le méritaient ». / Capture d'écran Reverso

Des résultats qui ont provoqué la colère de la Ligue internationale contre le racisme et l’antisémitisme (Licra). Jeudi 28 février, elle a interpellé Reverso sur Twitter et l’a menacé d’éventuelles « poursuites pénales » :

« Visiblement, il y a un gros problème chez Reverso avec des propositions de traduction trempées dans l’antisémitisme. Une réponse est attendue vite ! La Licra saisit sa commission juridique afin d’examiner si des poursuites pénales sont envisageables. »

« Nous sommes désolés »

Quelques heures plus tard, le compte Twitter de Reverso, sis en France, lui a répondu, expliquant que ces exemples seraient supprimés « d’ici un mois normalement » :

« Nous sommes désolés, les exemples proviennent de livres, de films, et ne sont pas revus manuellement. Tous les exemples signalés incorrects seront supprimés de la prochaine version, d’ici un mois normalement. »

Comment cela a-t-il pu arriver ? Il faut d’abord comprendre comment fonctionne Reverso. Pour proposer des morceaux de phrases dans deux langues, le service aspire d’énormes corpus de textes disposant de plusieurs traductions. Les documents officiels européens, par exemple, sont une mine d’or pour un tel service de traduction, puisqu’ils existent tous dans chaque langue des pays de l’Union européenne. Mais Reverso s’appuie également sur d’autres corpus de textes disponibles sur Internet, comme le service l’explique sur son site : d’innombrables sous-titres de films (par exemple, l’intégralité des sous-titres du site Open Subtitles), des livres, des brevets, des catalogues de produits…

Or, explique au Monde le PDG de Reverso, Théo Hoffenberg, « si vous prenez un film comme Inglourious Basterds, par exemple, vous pouvez y trouver des phrases très dures. On pourrait aussi trouver ce type de phrases dans un livre expliquant : “Voici ce que certaines personnes soutiennent.” ». Résultat : celles-ci réapparaissent hors contexte sur Reverso.

Pourquoi, alors, ne pas examiner ces textes pour retirer les passages qui, sortis de leur contexte, deviendraient problématiques ? « C’est impossible de les filtrer manuellement, on a plus de quatre-vingts combinaisons de langues et cent millions d’exemples [de courtes phrases] par langue », affirme le PDG. Un filtrage automatique existe bien pour les fautes d’orthographe les plus fréquentes, mais le reste est plus difficile à dénicher, souligne-t-il : « On se pose toutefois la question d’enlever tout ce qui contient des termes potentiellement polémiques. »

Il juge « regrettables » les cas signalés par la Licra : « Normalement, ça ne devrait pas apparaître. » Théo Hoffenberg mentionne l’existence d’un bouton, lié à chaque résultat, permettant de le signaler s’il pose un problème : « Tous les trois mois environ, on supprime les exemples remontés qui sont incorrects. » Un délai qui paraît énorme à l’échelle d’Internet – tout comme le mois annoncé pour supprimer les résultats dénoncés par la Licra. « Ce n’est pas simple, il faut tout recalculer sur l’ensemble du corpus », plaide le PDG, qui assure qu’il ne s’agit pas d’une banale mise à jour. « Mais là on va essayer d’accélérer au maximum. »

« La plupart des animaux détestent les Noirs »

Théo Hoffenberg précise que « des exemples comme celui de la Licra, il y en a eu deux fois en cinq ans à peu près ». Dans un tout autre registre, le site s’était déjà fait remarquer pour des résultats pornographiques en 2015.

Il est toutefois facile de trouver, selon les constatations du Monde, d’autres types de résultats problématiques avec différents mots-clés. En cherchant une traduction pour « les Noirs », Reverso Context propose par exemple « des faits connus : les Noirs emménagent, le crime augmente » ou « pour être honnête, la plupart des animaux détestent les Noirs ».

Le mot-clé « les Noirs » donne comme résultat « des faits connus : les Noirs emménagent, le crime augmente ». / Capture d'écran Reverso

L’expression Women should (« les femmes devraient ») donne quant à elle « les femmes devraient être frappées comme des gongs ».

La grande majorité de ces exemples proviennent de sous-titres, d’après nos recherches. A l’exception de « Hitler était beaucoup plus gentil envers les juifs qu’ils le méritaient », phrase prononcée par le néonazi canadien Terry Tremaine, jugé pour ses propos. Une saillie antisémite aspirée, par Reverso, sur le site du tribunal canadien des droits de la personne.