Tout savoir sur Test de Turing
En posant la question de savoir si un ordinateur pouvait tromper des humains lors d’une conversation, le test de Turing a profondément influencé le développement de l’intelligence artificielle (IA). Aujourd’hui, avec les avancées des technologies comme ChatGPT, la méthode est de plus en plus questionnée. Pourtant, Turing a façonné la recherche en IA et a ouvert la voie à de nouvelles approches d’évaluation.
Le test de Turing, une méthode pour différencier l’homme de la machine
C’est en 1950 que Turing expose pour la première fois son test, dans une étude intitulée Computing Machinery and Intelligence. Les premiers ordinateurs étaient alors en développement, soulevant de nombreuses questions sur leurs capacités potentielles. Des débats philosophiques se sont développés sur la possibilité pour les machines de penser comme les humains.
Alan Turing, un précurseur dans le domaine de l’informatique
Mathématicien et cryptanalyste britannique, Alan Turing est l’un des pères de l’informatique moderne et de l’intelligence artificielle. Durant la Seconde Guerre mondiale, Turing et son équipe ont joué un rôle crucial avec leur machine électromécanique CHRISTOPHER, parvenue à déchiffrer le code d’ENIGMA, utilisée par l’Allemagne nazie pour ses communications secrètes. Un travail considéré comme ayant raccourci la guerre de plusieurs années et qui a marqué un tournant dans l’évolution des ordinateurs.
Un jeu de l’imitation pour évaluer la capacité de la machine à penser
Plutôt que de tenter de définir l’intelligence de manière absolue, Turing propose un moyen pratique de répondre à la question « Les machines peuvent-elles penser ? ». L’objectif est d’évaluer si un ordinateur a la capacité d’imiter un humain.
Le déroulement de ce jeu de l’imitation est assez simple et implique trois entités : deux humains et un ordinateur. Un interrogateur humain pose des questions à deux entités, un autre humain et une machine, sans savoir qui est qui. Toutes les communications se font par écrit, afin d’éviter les biais liés à la voix ou l’apparence. La machine valide le test si elle parvient à déjouer la vigilance humaine au moins 30 % du temps, au bout de 5 minutes d’interaction.
L’impact de Turing sur le développement de l’Intelligence artificielle
Le test de Turing a exercé une influence majeure sur le développement de l’IA.
Un modèle catalyseur pour les chercheurs en Intelligence artificielle
Avec le test de Turing, les chercheurs ont pu s’appuyer sur un objectif concret et mesurable. Le modèle établit un critère précis pour évaluer la capacité d’un ordinateur à simuler le raisonnement humain à travers des échanges écrits. Il fournit ainsi une direction claire pour orienter les travaux de recherche. Des éléments qui ont contribué à stimuler la compétition entre laboratoires, chaque équipe cherchant à développer des modèles capables de réussir le défi.
L’effet du modèle de Turing sur le développement des modèles de NLP
Le traitement du langage naturel ou NLP est particulièrement mis en avant avec le test de Turing. L’attention des chercheurs s’est donc considérablement tournée vers ce domaine crucial de l’IA. Des algorithmes de plus en plus sophistiqués ont ainsi été développés afin d’aider les machines à comprendre et générer du langage humain de manière toujours plus convaincante.
Les premières tentatives de réussir le test de Turing ont d’ailleurs donné naissance aux premiers chatbots. Ces programmes, conçus pour simuler des conversations humaines, ont marqué le début d’une nouvelle ère dans la communication entre les hommes et les ordinateurs. Ces premiers chatbots ont posé les bases de la technologie des assistants virtuels modernes.
Limites et critiques du test de Turing
Bien que son influence soit largement reconnue, y compris par la communauté scientifique, le test de Turing fait également l’objet de nombreuses critiques.
Un test qui mesure un comportement plus qu’une intelligence
L’une des principales critiques contre le jeu de l’imitation est que ce dernier évalue plutôt la capacité à copier un comportement humain et non la véritable compréhension ou intelligence. En partant de ce principe, un ordinateur pourrait réussir le Test de Turing en manipulant simplement des symboles sans en saisir le sens.
Cette théorie est mise en avant par des philosophes comme John Searle avec l’expérience de Pensée de la Chambre Chinoise. Le but est d’illustrer la différence entre manipulation syntaxique et compréhension sémantique.
Le problème des biais humains dans l’interprétation des réponses
Le Test de Turing repose fortement sur les attentes et les biais de l’interrogateur humain. Une même machine pourrait échouer ou réussir le test en fonction de la personne à laquelle il est confronté. Par exemple, elle pourrait tromper un interrogateur moins expérimenté, mais pas une personne plus perspicace.
De plus, certains programmes pourraient passer le test en exploitant simplement des failles ou des particularités des interactions humaines. Une réussite qui toutefois ne démontrerait pas une véritable intelligence.
Un test qui ne mesure qu’un seul type d’intelligence
Le seul comportement évalué par le Test de Turing est lié aux interactions verbales. Il existe cependant bien d’autres aspects évaluables, comme les compétences émotionnelles. L’intelligence humaine est en effet multidimensionnelle et en limitant l’évaluation à un seul domaine de compétence, le test réduit considérablement la portée de sa mesure.
Les modèles d’IA qui se sont frottés au Test de Turing
Au fil du temps, plusieurs systèmes d’intelligence artificielle ont été développés dans le but de passer le Test de Turing. Certains modèles sont même parvenus à tromper la vigilance humaine.
ELIZA et PARRY, les programmes pionniers face à Turing
Le programme ELIZA a été développé dans les années 1960 par Joseph Weizenbaum. Il simulait un psychothérapeute en utilisant des réponses prédéfinies et a pu convaincre certains participants qu’il s’agissait d’un humain. Bien que rudimentaire, il est ainsi considéré comme le premier à avoir validé le Test de Turing.
PARRY, développé en 1972 par Kenneth Colby, a été conçu pour imiter le comportement d’un schizophrène paranoïaque. Une version différente a été utilisée pour l’évaluer. Un groupe de psychiatres a été chargé d’analyser des patients humains et des ordinateurs. Un autre a été chargé de consulter les transcriptions des conversations. Les deux groupes ont ensuite dû identifier les participants humains et les ordinateurs. Les psychiatres ont été trompés 52 % du temps, permettant à PARRY de valider le Test de Turing.
Le prix Loebner pour saluer les capacités de l’intelligence artificielle
Depuis 1991 et jusqu’en 2019, les IA se sont affrontées dans une compétition les mettant au défi de réussir le Test de Turing. Le prix Loebner, créé par Hugh Loebner, décernait alors trois médailles :
- de bronze pour le programme démontrant le comportement conversationnel le plus proche de l’homme ;
- d’argent, basé uniquement sur du texte ;
- d’or, basé sur les capacités visuelles et audio.
Si l’or et l’argent n’ont jamais été remportés, le bronze a été remis à plusieurs reprises, le plus souvent à des chatbots en ligne comme A.L.I.C.E (Artificial Linguistic Internet Computer Entity), Jabberwacky ou Mitsuku.
Le test de conversation avec Eugene Goostman, des données controversées
Une équipe de chercheurs russes a développé le chatbot Eugene Goostman pour simuler une conversation avec un Ukrainien de 13 ans. En 2014, il a attiré l’attention en convainquant 33 % des juges qu’il était humain lors d’un concours. Les observateurs ont toutefois soulevé un problème de taille. L’âge du personnage a permis de justifier les erreurs et incohérences dans les réponses, ce qui aurait pu influencer les juges.
Le Test de Turing inversé, appliqué à l’homme
Le CAPTCHA, utilisé pour empêcher les bots d’accéder à un site Web, n’est autre qu’un test inversé. Dans cette version, c’est le robot qui teste son interlocuteur pour vérifier qu’il a bien affaire à des humains. Il demande alors de résoudre un problème spécifique en ligne que seule une véritable personne peut solutionner.
Google Duplex, l’IA du géant du Web au service de l’homme
En 2018, c’est au tour de Google Duplex de faire sensation en prenant un rendez-vous téléphonique durant une présentation officielle en public. À l’autre bout du fil, un humain qui ne réalise pas qu’il est en pleine conversation avec un robot. Même si cette expérience ne s’est pas déroulée dans les conditions habituelles, certains considèrent que l’IA a validé le Test de Turing.
GPT-3.5 et GPT-4, le test des modèles ChatGPT d’Open AI
Dans une étude de 2024 menée par l’Université de Californie, trois systèmes ont subi le test simultanément : le pionnier ELIZA, et deux versions de ChatGPT, GPT-3.5 et GPT-4. Si le score du premier s’est établi à 22 %, GPT-3.5 a atteint un score de 50 %. GPT-4 est parvenu à duper les participants dans 54 % des cas en moins de 5 minutes. L’humain participant à l’étude n’a obtenu que 67 %.
Le futur du test de Turing et de l’Intelligence artificielle
Le développement rapide des outils d’IA remet en question la pertinence du test de Turing. C’est notamment le cas avec l’apprentissage automatique ou l’apprentissage profond. Ces modèles, entraînés sur de vastes ensembles de données, sont capables de réaliser des tâches spécifiques avec une efficacité impressionnante. Or, le test de Turing ne capture pas ces avancées liées au traitement de données, à l’analyse prédictive et à l’adaptabilité.
Les chercheurs se tournent désormais vers des évaluations plus spécifiques et nuancées de l’intelligence des machines, comme le Lovelace Test, qui peut mesurer la créativité et l’originalité. Le Winograd Schéma Challenge évalue la possibilité pour une machine de saisir les nuances contextuelles.
Le test de Turing a été un élément décisif dans le développement de l’IA en offrant un cadre d’évaluation essentiel. Aujourd’hui, avec des modèles avancés comme GPT-4, la nécessité de développer des critères plus ciblés est évidente. Néanmoins, le test de Turing demeure une référence fondamentale dans les discussions sur l’intelligence artificielle.