Arthur B.
Arthur B. Arthur Breitman. Machine learning, functional programming, applied cryptography, and these days mostly #tezos. Husband of @breitwoman, oligocoiner.

Un ordinateur a-t-il vraiment réussi le « test de Turing » ?

Originally published on Contrepoints.

Un programme informatique viendrait de réussir le test de Turing. Les médias n’ont eu cesse de traiter cette nouvelle sur un mode sensationnaliste, mais qu’en est-il vraiment ?

D’abord, qui est ce Turing et qu’est-ce que le test de Turing ? Alan Turing, né en 1912, était un scientifique anglais et un pionnier de l’informatique. Il travailla sur le tout premier ordinateur programmable afin de casser le code Enigma, utilisé par les sous-marins allemands pour échanger des messages secrets. Homosexuel, Turing fut contraint par le gouvernement de l’époque à subir une castration chimique qui le poussa au suicide en 1954, à l’âge de 41 ans.

Alan Turing, qui était un visionnaire, s’était notamment penché sur la question philosophique suivante : une machine peut-elle penser comme un être humain ? Il avait conclu dans un article publié en 1950 que cette question n’était pas pragmatique. D’un point de vue scientifique, on ne peut exprimer de jugement que sur des phénomènes mesurables. Suivant donc une approche comportementaliste et s’inspirant d’un jeu médiéval, Turing conçut alors le test éponyme. Un arbitre humain est présenté à un écran d’ordinateur où, à l’aide d’un clavier, il peut converser avec un interlocuteur. L’arbitre ignore si cet interlocuteur est un être humain ou un programme informatique. Si un programme parvient à convaincre l’arbitre de sa soi-disant humanité, alors ce programme a passé le test de Turing.

Réussir le test de Turing est généralement considéré comme le critère ultime indiquant qu’un programme fait preuve d’intelligence — à tous égards.

De ce point de vue, la nouvelle d’un programme passant avec succès le test de Turing devrait faire la une de tous les journaux. La réalité est plus décevante. L’University of Reading a récemment organisé un concours où des arbitres ont administré des tests de Turing à des programmes informatiques et à des êtres humains. Un de ces programmes a réussi à convaincre un tiers des arbitres qu’il était un adolescent ukrainien de 13 ans du nom d’Eugene Goostman. On remarque toutefois bien vite que la technique utilisée par le programme est de répondre de manière évasive et de changer le sujet. Comme le programme prétend être un adolescent qui ne parle pas forcément très bien anglais, on pourrait y croire après une conversation rapide et superficielle.

Cependant, c’est ignorer la portée du test de Turing. Le test de Turing ne se limite pas à des bavardages frivoles, bien au contraire. L’intérêt du test de Turing réside dans sa propriété de complétude. Par là on entend que le test de Turing est au moins aussi difficile qu’une large classe de problèmes difficiles en intelligence artificielle. L’apprentissage d’une langue étrangère, le talent au poker, l’invention d’une histoire, la capacité à analyser une situation de la vie courante… tout cela peut en principe être testé lors d’un test de Turing.

Un véritable test de Turing demande donc des arbitres antagonistes tentant de démasquer le programme et non pas des arbitres complaisants qui laissent le programme mener la conversation. Voici par exemple quelques questions très simples, à la portée d’un jeune enfant mais qui mettraient au tapis la plupart des “chatbots” :

  • Raconte-moi une histoire avec un dragon, un pompier et un sous-marin.
  • Une souris et un éléphant marchent dans le désert, la souris marche dans l’ombre de l’éléphant. Au bout d’un moment la souris dit “quand tu veux on échange…”. Peux-tu m’expliquer la plaisanterie ?
  • Un homme se fait bousculer dans le métro. Peu après il ne trouve plus son portefeuille, pourquoi ? Que va-t-il faire ?
  • Qu’est-ce qui pèse le plus lourd, toutes les fourmis du monde ou un hamster ?
  • En Freedonien, un sandwich au jambon se dit “wichsan au bonjam”. Comment dit-on un croque-monsieur en Freedonien ?

Au-delà de ces questions, un fin limier ferait constamment référence à un contexte établi au cours de la conversation. Un exemple de conversation avec Eugène montre qu’il ignore complètement le contexte et utilise des techniques d’évasion constantes pour dévier des questions posées.

Si le format des questions était connu et fixé à l’avance, il n’est pas impensable qu’un programme puisse bien s’en sortir. C’est en tout cas ce qu’indique le succès du programme d’IBM, Watson, au Jeopardy (un jeu télévisé de culture générale). C’est la diversité des questions possibles, des techniques à la disposition des arbitres qui rend impossible de réussir le test sans avoir une approche qui dépasse les simples généralités.

Y a-t-il alors un intérêt à ces compétitions qui testent la capacité des programmes au bavardage ? Pas vraiment si l’on en croit le chercheur en IA Stuart Shieber (cité par le théoricien Scott Aaronson). Il compare les tentatives de construire une intelligence artificielle à partir de chatbots de plus en plus doués à une tentative d’apprendre à voler en sautant de plus en plus haut, à l’aide d’un bâton à ressort.

Bien que des progrès spectaculaires aient été faits sur des problèmes spécifiques d’intelligence artificielle comme la traduction ou la reconnaissance d’images et de la parole, la création pratique d’une intelligence artificielle non spécialisée, capable de comprendre de nouveaux problèmes, d’abstraire et de généraliser ces problèmes reste encore ouverte.

comments powered by Disqus