Par ÉLÉONORA ALBANO
L’erreur la plus courante dans le discours des Big Tech – les propriétaires actuels de « grands modèles de langage » et de technologies similaires – est la demi-vérité.
La toute-puissance de la science dure du Nord
À une époque de datafication croissante de l’expérience humaine, il n’est pas surprenant que la pensée critique soit en déclin parmi les scientifiques. Mais il est en tout cas alarmant que cela puisse se produire dans la rédaction d’une revue académique traditionnelle, prestigieuse – et généraliste. C'est donc avec un mélange d'étonnement et d'indignation que j'ai lu le paragraphe d'ouverture, retranscrit ci-dessous, de l'éditorial du volume de juillet 2023 du magazine Intelligence artificielle de la nature. Comme on le sait, le groupe éditorial Nature, fondée à Londres dans la seconde moitié du XIXe siècle, a pour mission de réaliser des synthèses fiables des avancées dans divers domaines de la connaissance accessibles à l'ensemble de la communauté scientifique.
"Frederick Jelinek, un célèbre chercheur tchéco-américain en traitement du langage naturel et en reconnaissance vocale, a déclaré en 1985 : « Chaque fois que je licencie un linguiste, les performances du système de reconnaissance vocale augmentent », suggérant qu'il n'existe peut-être aucun moyen efficace d'inclure connaissances linguistiques dans de tels systèmes. Ce sentiment est-il également vrai pour les grands modèles de langage (LLM) de pointe, qui semblent être pour la plupart des artefacts de l'informatique et de l'ingénierie ? Les LLM et la linguistique traitent tous deux des langues humaines, mais il n'est pas clair s'ils peuvent s'enrichir mutuellement ou comment. ».[I]
Il est pour le moins irresponsable de la part de ceux qui font connaître les progrès de l’intelligence artificielle (IA) au reste de la communauté scientifique d’ignorer – ou de ne pas vouloir admettre – que les grands modèles de langage (ci-après GML, comme en anglais LLM) ) se sont beaucoup abreuvés de concepts et de techniques issus de la linguistique, ainsi que d'autres sciences qui décrivent et interprètent le langage naturel.
Il y a au moins deux raisons à cette désinformation. Le premier est politique. C’est juste que les scientifiques – linguistes, psychologues, sociologues, anthropologues, etc. – les responsables des taxonomies essentielles aux bases de données de formation des « grands modèles de langage » sont, en général, des citoyens de « seconde catégorie », recrutés dans les pays pauvres, comme travailleurs externalisés et précaires, pour les tâches jugées « triviales » d’étiquetage des données et, si nécessaire, prendre des décisions concernant la catégorisation.
La seconde est l’épistémologie généralement associée à cette vision de l’action et, en particulier, du travail humain : toute action, quelle que soit sa complexité, peut se réduire à une chaîne d’associations. L'influence de l'empirisme anglais y est reconnue, médiatisée par son approche déjà centenaire.[Ii] suite en psychologie américaine, le behaviorisme.
Nous verrons ci-dessous comment la conception de l'action développée en Europe à partir du XVIIe siècle réifie non seulement l'activité, mais aussi la pensée humaine. Une notion atomiste de la mécanique, suffisamment vague pour s'insérer aussi bien dans l'empirisme que dans le rationalisme, a permis d'exclure certains groupes de l'humanité, en les assimilant à l'animal-machine cartésien. Grâce à cela, les puissances coloniales européennes ont facilement justifié l'esclavage des indigènes de leurs colonies, ainsi que la dépossession des pauvres d'Europe.
Prenant le scénario colonial en toile de fond, cet essai vise à montrer qu'il existe un lien fort entre la position politique qui réduit certains types de travail scientifique à une chaîne de montage et la position « scientifique » qui considère le langage humain naturel comme un nombre infini d'éléments. chaînes interconnectées.
Le fait que ces idées soient implicites dans la production des technologies du langage permet à leur violence tacite, inhérente à la formation en informatique, de militer en faveur des intérêts de la facette actuelle de la colonialité, connue sous le nom de capitalisme de plateforme ou de surveillance.[Iii]
Langage naturel dénaturalisé
L’éditorial susmentionné honore la tradition empiriste non seulement parce que le magazine est anglais, mais surtout parce que le domaine du traitement du langage naturel (ci-après, PNL) – un sous-domaine de l’intelligence artificielle responsable des « grands modèles de langage » – est né et a prospéré dans un environnement fortement empiriste – ou, plus précisément behavioriste –.
Les chercheurs dans le domaine pensent que l’esprit humain est une machine de Turing, composée de milliards d’automates à états finis.[Iv] entrelacés. Il n’est donc pas surprenant que les PDG des entreprises de la région considèrent les personnes qui alimentent les « grands modèles de langage » comme de simples machines fournissant les informations nécessaires et suffisantes pour permettre aux « grands modèles de langage » de réussir le test de Turing dans le monde. le futur ensuite.
Ces experts ne se rendent même pas compte – ou font semblant de ne pas se rendre compte – à quel point l'intelligence est à la base du travail des étiqueteurs. Comme l'a documenté le journaliste d'investigation Josh Dzieza,[V] en Intelligence Artificielle, il est pratiquement impossible d’adopter d’emblée une catégorie intuitive, car différents exemples du même objet ont tendance à être considérés comme indistincts par la machine.
Pour l'entraîner à imiter nos catégories, les tagueurs doivent générer une sous-catégorisation détaillée et l'organiser en une hiérarchie de niveaux. Comme les autres robots, les « grands modèles de langage » nécessitent un nombre infini d’itérations afin d’atteindre des généralisations auxquelles tout enfant humain arrive après relativement peu d’exposition aux données.
Dans le traitement du langage naturel, l’une des principales manifestations de ce type de difficulté se situe dans les contextes syntaxiques et sémantiques contenant des discontinuités.
Notez que la tâche d’un « grand modèle de langage » est toujours de prédire le mot suivant – comme le font les éditeurs de texte sur téléphone portable, quoique grossièrement. C'est une tâche facile dans le cas des clichés, dont les termes cohabitent très fréquemment, mais très difficile dans la plupart des autres cas.
Ainsi, dans les expressions de moindre fréquence, l'estimation statistique n'est possible que grâce à quatre éléments, tous essentiels : une base de données de plusieurs milliards de mots ; une technologie très puissante – dont la capacité à apprendre des associations dépasse celle des réseaux de neurones récurrents (même profonds, c’est-à-dire à plusieurs couches) ; des descriptions grammaticales et sémantiques exhaustives ; et une formation intensive dans laquelle les erreurs d'association sont corrigées de manière itérative. Évidemment, les descriptions et corrections susmentionnées sont toutes faites par des humains – externalisés et précaires.
On estime que les bases de données qui alimentent les chatbots dialogiques tels que ChatGPT, d'Open AI, le barde, de Google, et le Bing, de Microsoft, sont de l'ordre de 300 milliards de mots. L'appareil très puissant qui permet son utilisation en temps réel s'appelle transformateur – traduit par transformateur. Il s’agit d’un modèle statistique qui applique un ensemble de techniques mathématiques, appelées « attention » et « auto-attention », pour détecter les dépendances entre les éléments d’une chaîne – dans le premier cas, l’entrée ou la sortie ; dans le second, la chaîne en cours elle-même.
Une masse de robots interconnectés
A noter que le transformateur qui sous-tend les « grands modèles de langage » n’a pas grand-chose à voir avec le dispositif homonyme qui modifie les niveaux de tension du courant électrique. Ce qui change, lors du choix d'un mot après l'autre, ce sont les relations entre les termes de la base de données (ci-après corpus, par souci de simplicité), car chaque nouvelle occurrence alimente l'entrée et réorganise le réseau de relations existant.
Il n'est pas difficile de comprendre comment. Toutes les relations sont exprimées par des poids de connexion entre les nœuds des sous-réseaux du corpus. Ces poids sont, à leur tour, calculés sur la base des probabilités de cooccurrence de paires de mots possibles. Le transformateur est suffisamment puissant pour permettre à tous les membres du corpus, ainsi qu'à toutes ses balises (grammaticales, sémantiques, discursives, psychologiques, sociologiques, politiques, ethnographiques, etc.), de se connecter simultanément les uns aux autres, afin que le calcul de le mot suivant peut considérer les aspects les plus variés de l'énoncé actuel et de son contexte.
Il faut savoir que le volume d’étiquettes disponibles pour affiner ce calcul est gigantesque. Les plus simples couvrent des aspects tels que les classes grammaticales et les formes textuelles de dénomination et de référence (par exemple, les noms propres, les pronoms personnels, les démonstratifs, les possessifs, etc.).
Il convient également de noter que l’étiquetage ne se limite pas aux mots. Il comprend également les parties du discours (par exemple, le sujet, le prédicat, les compléments) ; les phrases et leur classification syntaxique (par exemple, sous-classes principales, subordonnées et respectives) ; et les genres textuels oraux ou écrits (par exemple familiers, littéraires, journalistiques, juridiques, scientifiques, etc.).
Quiconque, sur la base de ce qui précède, a imaginé que les bases de données des « grands modèles de langage » ressemblent à de gigantesques dictionnaires dont les « entrées » sont implicites dans leur réseau de connexions a résolu un tiers de l’énigme. Cependant, le contenu des deux autres tiers est tout aussi important : il s’agit d’informations grammaticales et encyclopédiques cruciales – apportées, une fois de plus, par les tagueurs.
En fait, toutes les occurrences d’un même mot sont liées les unes aux autres ; et leurs différentes significations sont représentées par les similitudes et les différences, codées mathématiquement, entre les phrases auxquelles elles se connectent. Cela finit par fonctionner à peu près comme les exemples fournis dans les entrées pour les mots polysémiques dans les dictionnaires.
De plus, les éléments de chaque phrase se connectent à une grammaire. Dans celui-ci, les structures syntaxiques sont mappées dans des diagrammes arborescents[Vi], tandis que les structures sémantiques font référence à différentes formes logiques (via le calcul propositionnel, entre autres) et champs sémantiques (par exemple, les noms de fruits se connectent, de bas en haut, aux champs de fruits, légumes, aliments, etc.). La grammaire fait également référence aux indexeurs de coréférence (par exemple, dans la phrase « João disse que que está não faz o him », le pronom « o » peut faire référence à João lui-même, à une deuxième personne ou à une troisième personne).
Enfin, les textes sont classés en fonction de la connaissance du monde (par exemple, sujet, genre, paternité, ton, style, sources documentaires ; avec des étiquettes allant du plus générique au plus spécialisé). Ces informations, après avoir été minutieusement notées et reliées, permettent une infinité de recherches afin de répondre à des demandes complexes, comme résoudre des tâches scolaires, rédiger des avis juridiques, aider à des diagnostics médicaux, etc.
Cette collection gigantesque et exhaustivement interconnectée donne aux « grands modèles de langage » une énorme capacité à construire de « nouvelles » phrases en paraphrasant des fragments de données contenues dans la base de données elle-même. Lorsque l'éminent linguiste, philosophe et mathématicien Noam Chomsky dit que Chatbots ce ne sont que des plagiaires, ils ne disent pas qu'ils se contentent de copier et coller des coupes littérales à partir de la base. Il s’agit en fait de supposer qu’ils produisent de bons pastiches de leur propre contenu, à travers des synonymes et des paraphrases enchaînées de manière à rendre les patchs et les coutures presque imperceptibles. Des connexions exhaustives leur permettent de trouver facilement les meilleurs raccourcis pour ce faire.
Cependant, la concaténation finit par échouer et semble étrange lorsqu’un expert sur un certain sujet pose une question piège au robot. Voyons comment la linguiste Roni Katzir[Vii] a fait le ChatGTP4 perdez-vous avec des points de suspension que toute personne maîtrisant l'anglais comprendrait facilement. La demande était de choisir la meilleure de ces deux phrases : (1) La personne que Mary a rencontrée hier et dont John parlera à Ed demain est arrivée ; (2) La personne que Mary a rencontrée hier et que John parlera à Ed de sa nouvelle idée demain est arrivée.
Le robot n'a pas hésité à répondre qu'il s'agissait du deuxième, car il était « plus informatif ». Il a ainsi ignoré une règle grammaticale anglaise qui exige une coréférence entre deux ou plusieurs ellipses coordonnées – dans ce cas, l’objet de «la ficelle d'étiquettes/étiquettes volantes en carton ' et le complément du verbe prépositionné 'parler à propos'. L'addition de "sa nouvelle idée» provoque une rupture drastique du sens de la phrase, déjà alourdi par les longues séparations entre le sujet et le verbe principal, et entre le verbe «parler' et l'adverbe 'demain'. Ainsi, en (2), il n’est pas possible d’établir la coréférence entre ‘la personne» et les deux occurrences coordonnées de «qui'. La réaction humaine consiste simplement à juger la phrase anormale, tandis que celle du robot consiste à forcer une interprétation.
Le fait que l’auteur ait inventé des phrases aussi tortueuses est probablement un moyen de compliquer la recherche d’un analogue dans la base de données. L'important est que, néanmoins, la phrase (1) est grammaticale et la phrase (2) ne l'est pas. Chaque fois que la recherche se termine dans un labyrinthe, le robot se perd et dévie, recourant à l'un de ses clichés préenregistrés.
Des clichés similaires apparaissent également lorsque quelqu’un vous confronte à une demande d’adoption d’une position morale. En insistant sur le fait que ChatGPT a adopté un point de vue personnel sur une question morale, le chercheur Jeffrey Watumull, collaborateur et co-auteur avec Noam Chomsky[Viii], a tiré de lui une déclaration contrite de sa non-humanité. Faisons attention à la « modestie » de la machine : «En tant qu'IA, je suis un modèle d'apprentissage automatique qui a été formé sur de grandes quantités de données textuelles et je n'ai pas d'expériences ou de sentiments personnels. Je ne suis pas conscient, conscient de moi-même ou capable d'avoir des perspectives personnelles. Je peux fournir des informations et des analyses basées sur les données sur lesquelles j'ai été formé, mais je n'ai pas la capacité de me forger des opinions ou des croyances personnelles. Même si je peux comprendre et interpréter le langage, je n’ai pas l’expérience subjective que vivent les humains.. »[Ix]
La seule caractéristique humaine à laquelle le robot ne renonce pas, donnant voix aux idées de ses créateurs, est la compréhension du langage naturel. Tout comme la linguistique inavouée des robots linguistiques cache leurs marqueurs, la psychologie inavouée de leurs créateurs mécanise la capacité linguistique humaine, l'assimilant à une masse gigantesque d'automates à états finis interconnectés via un énorme transformateur.
Nous verrons ci-dessous que la politique des fournisseurs de chatbots comporte trois ingrédients favorables : (i) éviter les déclarations exhaustives ; (ii) stimuler la curiosité du public quant aux développements futurs possibles de « grands modèles linguistiques » ; (iii) répondre à la controverse sur son potentiel transhumain[X] comme une simple dispute d’opinions.
Des projections sur mesure
L’erreur la plus courante dans le discours des Big Tech – les propriétaires actuels des « grands modèles de langage » et des technologies associées – est la demi-vérité. Ces entreprises sont passées maîtres dans l’art de dissimuler leur indulgence – pour ne pas dire leur connivence – avec les contrevérités rendues virales dans les médias à propos de leurs produits. En revanche, lorsqu’on les interroge, ils n’hésitent pas à apporter des éclaircissements, précis à première vue, mais souvent lacunaires et glissants.
Un bon exemple est la façon dont Google s'est récemment exonéré de toute responsabilité concernant les rumeurs sur les attributs humains de son premier prototype de chatbot, "LaMDa"(modèle de langage pour les applications de dialogue), en 2021. Au lieu d’émettre et de publier correctement une déclaration de principes, celle-ci n’est devenue publique qu’après qu’un ingénieur de l’équipe ait réalisé un pic viral en affirmant que le modèle était devenu sensible.
L’ingénieur a subi une suspension administrative et l’entreprise a annoncé sa position selon laquelle la sensibilité est encore « loin » d’être atteinte par les robots, le langage ou autre. Ce faisant, il rejette la responsabilité de ces fausses nouvelles – sans toutefois nier son intention d’« humaniser » toujours plus les descendants de sa division d’intelligence artificielle. A tel point que le plus récent descendant de LaMDaQu'il s'agisse d'un vin rare et exotique ou du même vin dans différents millésimes, quel que soit votre choix au barde, dispose déjà d'un cliché taillé pour chipoter sur le sujet.
Entre autres prédicats, le barde est gratuit et, à mon avis, plus agréable que le ChatGPT, son rival lancé peu avant par Open AI, avec le soutien de Microsoft. Voici sa réponse minutieuse à une question que je lui ai posée, en suivant à la lettre le modèle de Watumull : «Le concept d’intelligence, de conscience, de sentiment et de capacité à porter des jugements moraux des chatbots est un concept complexe qui fait encore l’objet de débats parmi les experts. Il n’existe pas de définition unique de ces termes et ils sont souvent utilisés de manière interchangeable. Certains experts estiment que les chatbots peuvent être intelligents, mais pas conscients ou sensibles. Ils soutiennent que les chatbots sont simplement des algorithmes très sophistiqués, capables de traiter les informations et de réagir d’une manière qui semble intelligente. Cependant, ils n’ont pas le même niveau de conscience ou de conscience de soi que les humains.. »[xi]
Comme on peut le constater, les deux robots semblent avoir été entraînés pour ne pas compromettre leurs créateurs avec les fantasmes d'humanité qu'ils éveillent chez leurs utilisateurs.
Pour tester à nouveau cette idée, j'ai soumis le barde à la discussion de Katzir sur les deux phrases avec des ellipses différentes en termes de grammaticalité en anglais. Il a immédiatement donné cette réponse, analogue à celle du ChatGPT. Voyons: "Les deux phrases sont grammaticalement correctes, mais elles ont des significations différentes. La première phrase, « La personne que Mary a rencontrée hier et dont John parlera à Ed demain est arrivée » est plus concise et directe. Cela nous dit que la personne que Mary a rencontrée hier est la même personne dont John parlera à Ed demain. La deuxième phrase, « La personne que Mary a rencontrée hier et dont John parlera à Ed de sa nouvelle idée est arrivée demain » est plus détaillée. Cela nous indique que la personne que Mary a rencontrée hier est la même personne avec laquelle John parlera demain à Ed de sa nouvelle idée. La première phrase est meilleure si vous voulez souligner le fait que les deux personnes sont identiques. La deuxième phrase est meilleure si vous souhaitez souligner le fait que John parlera à Ed de sa nouvelle idée. En fin de compte, la meilleure phrase dépend du contexte dans lequel elle est utilisée. »[xii]
Enfin, il présente un tableau comparatif des deux phrases, qui ne peut être reproduit ici, car il s’agit d’un simple résumé de « l’explication » transcrite ci-dessus.
Essayons maintenant de comprendre plus en détail l'irresponsabilité du discours évasif des Big Tech à propos de leurs chatbots. Il y a une bonne raison pour qu’ils traitent les différences entre les ordinateurs et les humains avec la transparence et la rigueur scientifique nécessaires : les gens connaissent la tendance des gens à humaniser les robots linguistiques depuis plus d’un demi-siècle. Les conséquences néfastes de ce biais – réelles ou potentielles – sont également bien connues.
L'effet Eliza
Le premier chatbot remonte à 1966 et a été baptisé Eliza par son créateur, le mathématicien et ingénieur informaticien Joseph Weizenbaum, connu comme l'un des pères de l'intelligence artificielle.
Il est important de noter que Joseph Weizenbaum a péremptoirement refusé cette paternité. Juif allemand issu d'une famille qui a émigré en Amérique du Nord peu avant la Seconde Guerre mondiale, il a utilisé ses aptitudes mathématiques pour survivre à l'école et dans la vie. Après avoir vécu au Canada, il a ensuite déménagé aux États-Unis, où il a entamé une carrière universitaire, pour finir comme professeur invité au département d'intelligence artificielle du MIT. Alors que son scepticisme croissant à l’égard de l’IA l’éloignait de ses collègues, il retourna finalement en Allemagne en 1996, encouragé par la réceptivité de l’intelligentsia allemande à ses idées.
S’il n’a jamais cessé de travailler dans l’informatique, il n’a pas caché sa passion pour les études humaines et sociales. Les traumatismes de la fuite du nazisme et les vicissitudes de l’exil finissent par l’amener à un moment donné à rencontrer la psychanalyse. Depuis, il la déclare efficace, bénéfique et indispensable à la compréhension de la nature humaine.
En concevant Eliza comme un robot « thérapeute », j’étais conscient que je ne pouvais pas lui donner une compréhension de la complexité de la psychanalyse. Il la conçoit alors comme une thérapeute rogérienne, c'est-à-dire adepte de la méthode de Carl Rogers, psychologue clinicien américain prônant une psychothérapie non directive et centrée sur la personne. Cela consistait, grosso modo, à insérer la déclaration du patient dans des phrases telles que « vous me dites que… », ajoutées à d'autres clichés vagues et encourageants, tels que : « Et comment comptez-vous gérer cela ? Après avoir compilé ce répertoire de base, il n'a pas été difficile de produire et de tester le logiciel.
Eliza, qui a commencé simplement comme un outil pour rechercher la viabilité d'un robot conversationnel, est rapidement devenue un succès auprès du public. Joseph Weizenbaum s'est rendu compte que l'expérience prenait une direction différente de celle prévue lorsque les participants ont commencé à refuser de lui montrer le contenu de leurs dialogues avec la machine, prétextant qu'il s'agissait d'affaires privées.
Il était sûr qu'Eliza ne comprenait pas vraiment ce qu'ils lui disaient : elle réussissait simplement à simuler cette compréhension. Cependant, il s’est vite rendu compte que son public ne le remarquerait presque pas. Il a ensuite supposé qu’ils étaient plongés dans un transfert psychanalytique – dirigé, de manière surprenante, vers la machine.
Dès lors, cet ingénieur humaniste et politisé se fait remarquer pour affirmer, avec toujours plus de véhémence, qu'il existe une différence incommensurable entre le langage humain, qui produit des jugements qui peuvent être contredits, et ses simulacres numériques, qui ne sont constitués que de calculs référençables. aux séquences de mots sorties d’une machine programmée pour simuler des conversations.
Joseph Weizenbaum a soutenu que les machines ne raisonneraient jamais comme les humains car elles ne sont capables que de calculer. L’émergence et le développement des réseaux de neurones après la formulation de ses thèses n’invalident pas ses arguments. Qualitatifs ou quantitatifs (comme c'est le cas des poids des connexions entre nœuds dans de tels réseaux), les calculs impliqués dans la technologie conversationnelle n'ont pas accès à tous les types d'informations que les cerveaux vivants, humains ou animaux, sont capables de capter, de collecter et d'exploiter. processus.
Cette position est explicite dans les titres de ses deux principaux livres. Toutes deux tentent de démontrer que la simulation numérique du langage naturel n’est rien d’autre qu’une illusion qui conduit les utilisateurs à projeter leur humanité sur des machines.
Le premier livre s'intitule Puissance informatique et raison humaine : du jugement au calcul [xiii]. Le second est co-écrit par l'écrivaine allemande Gunna Wendt et s'intitule Des îles dans le cyberflux: à la recherche de refuges de raison dans une société programmée[Xiv], rédigé à son retour en Allemagne et traduit seulement plus tard en anglais. Un autre titre évocateur est « Contre l’impérialisme de la raison instrumentale », un chapitre d’un recueil sur les controverses dans l’univers informatique.
Les deux livres ont reçu des critiques défavorables aux États-Unis. Par exemple, John McCarthy, qui a créé le terme intelligence artificielle en 1956, a publié avec Marvin Minsky et ses collègues un long texte en 1976.[xv] qualifiant le premier livre de moraliste et d'incohérent. D'un autre côté, Dwight Hines, professeur de littérature et de justice sociale à l'Université de Point Park, a révisé le même ouvrage en 1980 :[Xvi] le décrivant comme une lecture difficile mais enrichissante.
Jusqu'à sa mort en 2008, Joseph Weizenbaum exprimait une grande inquiétude quant à l'orientation de ce qu'il appelait « la société programmée ». Il aurait certainement été déprimé s’il avait été parmi nous en mars 2023, lorsqu’il y a eu un épisode fatal provoqué par une « mise à jour » d’Eliza. La société responsable était Eleuther AI, qui a repensé Eliza sur la base de son modèle de langage, GPT-J, lui-même basé sur Chat GPT.
En mars 2023, un jeune père de famille belge, déprimé par la menace d’un effondrement environnemental, se suicide subitement. Comme sa femme l'a rapporté à la presse, il avait « soigné » sa dépression avec l'actuelle Eliza et avait son soutien pour cette décision.
Cette histoire a dû suffire à suggérer que les modèles linguistiques actuels justifient les craintes de Joseph Weizenbaum qu'une société viscéralement liée à l'informatique puisse s'égarer et finir par déléguer des décisions cruciales pour l'avenir des citoyens, voire de l'humanité.
Il convient de rappeler que les chatbots n’ont même pas besoin d’être envahis par des criminels pour constituer un danger : les systèmes dynamiques complexes tels que ceux mis en œuvre par les transformateurs présentent généralement des phénomènes émergents imprévisibles. Des nouvelles peuvent surgir à tout moment, avec des conséquences tout aussi imprévisibles. Il est possible que certains d’entre eux finissent par soumettre les utilisateurs à des situations stressantes et embarrassantes. Et – pire encore – il n’est pas impossible qu’ils se mettent soudainement à afficher des contenus que nous considérerions comme absurdes, contraires à l’éthique, voire menaçants.
Cela est dû à des sauts brusques dans le comportement de ce type de système, caractérisés par des courbes de fonctions statistiques bien connues. Par exemple, la courbe « S » présente un taux de variation très faible à la base et au sommet et très élevé au milieu, et peut, entre autres applications, caractériser la transition d'un niveau à un autre. Les paramètres des systèmes complexes inhérents aux transformateurs présentent souvent des trajectoires en forme de « S ».
En plus d’expliquer l’attachement facile aux chatbots, l’effet Eliza contribue à rationaliser, au moins en partie, la propagation effrénée de la désinformation sur les réseaux sociaux. Les utilisateurs de ces espaces virtuels étendent facilement à des inconnus – souvent avec des intentions malveillantes – les liens de transfert déjà créés avec leurs propres machines. Il est donc grave que les prestataires de services prétendent ignorer le phénomène et s'exonèrent de toute responsabilité.
Rappelons que l’étude de ce type de tendance ne concerne pas uniquement les informaticiens devenus conscients des risques du monde numérique. La sociabilité des réseaux suscite également de nombreuses recherches dans les départements de psychologie, de sociologie, d’anthropologie et de sciences politiques des universités et centres de recherche du monde entier. Il existe donc déjà une vaste littérature scientifique sur les relations entre les humains et leurs machines.
Indifféremment, les Big Tech continuent de rivaliser pour le marché des assistants virtuels, ignorant les avertissements répétés du monde universitaire et du journalisme critique. En d’autres termes, de leur point de vue, les technologies linguistiques ne font qu’ouvrir des opportunités pour créer de nouveaux marchés et maximiser les profits.
Mauvaise grammaire, pire pragmatique
Ce qui précède a dû montrer clairement que les propriétaires de chatbots ne visent pas seulement à améliorer les moteurs de recherche Internet. Ce qu’ils veulent, c’est construire des robots parlants qui séduisent définitivement les utilisateurs et contrôlent leur vie afin de façonner leurs besoins et leurs habitudes de consommation. Ils sont évidemment pleinement conscients de la fascination exercée sur l'humanité par les robots – depuis leurs débuts, au Moyen Âge, jusqu'aux franchises cinématographiques d'aujourd'hui, en passant par les ingénieux automates des XVIIIe et XIXe siècles.
Oscillant entre méfiance et attachement, les utilisateurs voient ces appareils comme des serviteurs abordables, prêts à les assister dans des tâches physiquement ou mentalement difficiles ou fastidieuses. Les assistants virtuels déjà disponibles, comme Siri, d'Apple, ou Alexa, d'Amazon, explorent les aspects les plus simples de cette demande, qui risque de croître et de se complexifier dans un avenir proche.
Le capitalisme de surveillance recourt ainsi au langage naturel pour « consoler » les individus de la solitude et de l’impuissance qu’il sème lui-même – malgré les avertissements répétés des chercheurs de nombreux domaines, dont le PLN.[xvii]. Quoi qu’il en soit, les récents progrès de ses capacités conversationnelles ont déjà conquis le public des pays du Nord. Elles progressent également dans les pays du Sud, notamment dans les classes moyennes – ce qui contribue de fait à accentuer les inégalités.
Capables de prendre des dictées et de contrôler les agendas, les conversations, le courrier, les appels téléphoniques, les maisons intelligentes, etc., les assistants virtuels attirent les consommateurs qui, à travers eux, réalisent leur désir d'avoir une secrétaire privée à qui ils peuvent transférer non seulement des tâches, mais aussi des affections. . Alors que la technologie GML ouvre la voie à de nouvelles formes de dialogue basées sur des systèmes dynamiques complexes, les « Elizas » actuelles ont tendance à faire des sauts spontanés, étant capables d’acquérir de nouvelles compétences qui génèrent des énoncés de moins en moins prévisibles – et peut-être même dangereux.
De toute façon, il est devenu impossible d’arrêter la manipulation qui inonde Internet basée sur l’effet Eliza. Comme Joseph Weizenbaum l’a compris, il s’agit d’un phénomène de masse mondial. Il est donc impératif de clarifier que cette manipulation repose sur de fausses prémisses concernant l’intelligence humaine et le langage naturel. Cette clarté est essentielle pour que la pensée critique puisse se concentrer sur les stratégies possibles pour affronter la doctrine politique qui intègre naturellement de telles prémisses.
Un seul mot résume ce qu’il y a de commun entre la conception du langage et celle de l’intelligence adoptée par les plateformes internet, à savoir : mécanisme, c’est-à-dire la doctrine philosophique selon laquelle la nature est gouvernée par une causalité mécanique – toujours linéaire et déterministe. Or, l’histoire montre que le mécanisme est facilement associé aux opinions politiques autoritaires et a une affinité particulière avec le fascisme.
La conception mécaniste du langage naturel, typique de la version américaine du structuralisme, comprend la grammaire comme un ensemble de règles permettant d'ordonner les mots. Son pendant en psychologie – le behaviorisme – est encore plus simpliste et réactionnaire : il conçoit l’esprit humain comme une succession de contenus atomiques provenant d’impressions venues de l’extérieur.
Selon la version du behaviorisme formulée par le psychologue américain B.F. Skinner, nous n'avons même pas d'esprit ; nous ne sommes mus que par des comportements fixes et séquencés grâce à une forme de conditionnement appelé opérant. Elle consiste à récompenser des comportements aléatoires afin de les façonner de manière cumulative. Ainsi, par exemple, si un pigeon bouge son aile, sa patte ou son bec pour suggérer de danser, le dresseur le récompense avec une portion de nourriture. Petit à petit, ces renforts répétés l'amènent à réaliser toutes sortes de pirouettes.[xviii]
Dans les années 1950, le jeune Noam Chomsky devient célèbre en critiquant le behaviorisme et en dénonçant ses affinités avec le fascisme. Outré par les thèses mécanistes sur le langage naturel exposées par Skinner dans le livre Comportement verbal, l'a confronté à une critique dévastatrice.[xix] Il s’agissait d’une démonstration convaincante que les mots de toute langue sont organisés de manière hiérarchique et discontinue – contredisant ainsi les règles séquentielles des grammaires à états finis qui sont le corrélat formel du conditionnement opérant.
C’est pourquoi le célèbre linguiste et ses disciples attaquent les « grands modèles de langage », insistant, avec la même ardeur que Weizenbaum, sur le fait qu’ils ne sont que des simulations. Pour cela, ils mettent en avant leurs difficultés face aux discontinuités syntaxico-sémantiques, comme celle du verbe « parler de » et de son objet «la personne" dans la phrase qui a confondu le ChatGPT eo barde.
La syntaxe et la sémantique ne sont cependant pas les seules faiblesses de ces modèles. Un autre échec avec un aspect essentiel des langues naturelles concerne la pragmatique, qui inclut le contexte linguistique et situationnel.
Rappelons d'ailleurs que la deixis est l'aspect du langage naturel le plus dépendant du contexte situationnel. Tous les mots qui désignent le moment et/ou le lieu de l'énonciation et/ou de l'énoncé ne sont interprétables qu'à travers un contexte vécu ou imaginé. Prenons par exemple les pronoms personnels.
L’ambiguïté de l’expression « Elle a dit qu’elle la prend » est certes inappropriée pour le langage écrit, mais parfaitement naturelle pour le langage parlé, dont le contexte inclut les gestes, les regards, les tons et les qualités de la voix. Par exemple, s’il s’agit de savoir qui la prend, il existe plusieurs manières de désigner la femme en question. Elle peut être co-référente du premier « elle », signifiant « elle-même », ou cela peut en être un autre. L’altérité s’indique généralement par un hochement de tête ou un simple regard. Le troisième « elle », évidemment, peut être une personne ou une chose.
Ces références peuvent également être anaphoriques, c'est-à-dire que les mêmes rôles peuvent être attribués à des personnes ou à des choses déjà mentionnées. De plus, le verbe « levar » peut prendre un autre sens : par exemple, dans un championnat, « elle la prend » peut désigner un athlète (ou une équipe portant un nom féminin) qui est le favori pour remporter la coupe.
Examinons maintenant l'analyse de cette phrase par barde. Il est curieux qu'il souligne une duplicité de sens, mais les illustre par des exemples qui ne les différencient pas.
« L’expression « Elle a dit qu’elle la prenait » a deux significations possibles, selon l’interprétation des pronoms « elle ». Dans le premier sens, les deux pronoms elle désignent la même personne. Dans ce cas, l'expression signifie qu'une femme a dit qu'elle prendrait elle-même une autre femme. Par exemple, une femme pourrait dire à un ami : je t'ai dit que je t'emmènerais au cinéma.
Dans le deuxième sens, les deux pronoms « elle » font référence à des personnes différentes. Dans ce cas, l’expression signifie qu’une femme a dit qu’elle prendrait une autre femme. Par exemple, une mère pourrait dire à sa fille : J'ai dit que je t'emmènerais à l'école.
Pour déterminer le sens correct de l’expression, il est nécessaire de considérer le contexte dans lequel elle est utilisée. Par exemple, si la phrase est prononcée lors d’une conversation entre deux femmes, il est plus probable qu’elle ait le premier sens. Cependant, si la phrase est prononcée lors d’une conversation entre une femme et un enfant, il est plus probable qu’elle ait le deuxième sens.
Ainsi, le chatbot continue de présenter des phrases avec des coréférences identiques pour, soi-disant, différencier les deux sens. L’explication longue et détaillée commet toujours les mêmes erreurs. À la fin, une section « fictionnelle » comique tente d’introduire un intervalle de temps entre les deux occurrences de « elle ».
Voyons voir : « De plus, il est important de rappeler que l’expression « Elle a dit qu’elle la prend » peut aussi avoir un troisième sens, dans lequel les deux pronoms « elle » font référence à la même personne, mais à des moments différents. Par exemple, l’expression « Elle a dit qu’elle l’emmènerait à l’école » pourrait signifier qu’une femme a dit qu’elle emmènerait un enfant à l’école, même si l’enfant est elle-même adulte.
Et, pour conclure, il recourt, encore une fois, à son résumé cliché sur la pragmatique : « Dans ce cas, le sens de la phrase est déterminé par le contexte et la connaissance du monde du locuteur ».
Ce qui précède corrobore fortement l’hypothèse de simulation, rendant peu plausible l’affirmation selon laquelle le chatbot possède une intelligence et une compréhension du langage naturel. D'autre part, cela montre également que la simulation échoue rarement à tromper l'utilisateur : cela se produit uniquement lorsque les relations entre les mots violent la logique séquentielle du transformateur, qui consiste toujours à prédire le mot suivant.
Dès lors, on ne peut s’empêcher de conclure par une question : quel est le pouvoir persuasif de cette logique, étant donné qu’elle est correcte dans la plupart des cas ? Pour tenter d'y répondre, examinons une autre application des transformateurs dans laquelle les succès l'emportent sur les erreurs. Il s'agit d'un moyen d'estimer, par approximations successives, le prochain échantillon de signal d'un enregistrement vocal. Cette technique est capable d'altérer une voix au point d'en faire un clone plus ou moins convaincant d'une autre.
Et si Eliza avait une voix familière ?
Bien qu’il soit déjà assez avancé dans les pays du Nord, le clonage de la voix reste controversé en raison de ses implications éthiques. Il s’agit d’une technologie qui profite de l’agilité et de la puissance de calcul des transformateurs pour répondre à la question suivante : comment reproduire une voix donnée de manière illimitée, c’est-à-dire l’étendre à des énoncés non enregistrés par le locuteur ?
La réponse est plus simple qu’il n’y paraît. Superposez simplement les caractéristiques acoustiques de la voix en question à la sortie d'un système de conversion de texte en parole. Pour ce faire, il est nécessaire d’obtenir un échantillon de bonne taille de la voix cible et de le comparer à plusieurs reprises à la voix synthétique. Des phrases identiques à celles existantes sont d'abord synthétisées, afin de faciliter la modélisation des paramètres acoustiques de la voix cible. La voix synthétique est ensuite soumise à de multiples comparaisons et modifiée par approximations successives, jusqu'à ce que chaque échantillon devienne estimable à partir du précédent avec une erreur négligeable. La fonction résultante, qui convertit la forme d’onde d’une voix en une autre, est appelée modèle vocal.
Le changement se fait par étapes. Lorsque la qualité perçue du signal résultant devient satisfaisante, le modèle est prêt à être appliqué à de nouveaux énoncés. Elle est ensuite réitérée pour chaque échantillon jusqu'à ce qu'un taux d'erreur acceptable soit atteint dans la prédiction du suivant, et ainsi de suite. Ces corrections récurrentes ont pour effet de rapprocher les tonalités et les timbres des voix concernées afin de rendre leurs qualités de plus en plus proches.
Comme l’a rapporté la presse internationale, il existe déjà des « clones », c’est-à-dire des modèles, des voix d’innombrables célébrités décédées. On peut, par exemple, appliquer le modèle vocal d'un chanteur aux enregistrements d'un de ses imitateurs pour maximiser le naturel de l'imitation et ainsi permettre son extension à de nouvelles chansons, y compris celles apparues après la mort.
Os couvre Les locuteurs numériques ont tendance à faire mieux que les humains car la technologie permettant de prédire et de modifier le signal vocal dilue les effets des différences morphologiques entre les appareils vocaux impliqués.
Il convient de noter que les imitateurs n’ont pas un contrôle total sur la qualité de leur voix, toute vocalisation étant subordonnée aux limites physiques du corps qui l’émet. C'est pourquoi ces artistes agissent de manière plus ou moins caricaturale, accentuant généralement les traits les plus saillants de la voix imitée.
La méthode d'approximation, en minimisant l'erreur de prédiction entre échantillons successifs, corrige automatiquement, entre autres paramètres, ceux qui traduisent des différences physiques entre locuteurs ou chanteurs. Appliqué à des voix similaires trouvées dans des bases de données de terrain, il permet d'obtenir des clones presque parfaits.
Grâce à cette technologie, disponible sur Internet pour test et/ou acquisition, il est possible de choisir les voix de robots de secrétariat et/ou thérapeutiques, à condition de ne pas violer le droit d'auteur. En effet, aux États-Unis, il existe déjà des entreprises qui « recréent » des proches décédés afin de permettre aux intéressés de nouvelles interactions avec leurs voix et leurs images.[xx] Ces avatars sont créés à partir de vidéos et de textes laissés par les absents. Il existe même des spectacles dans lesquels des artistes morts se produisent avec leurs homologues vivants dans des numéros de chant et de danse.[Xxi]
Il convient désormais de réfléchir aux conséquences possibles de la combinaison d’un chatbot avec des voix clonées et des images animées. Ce qui frappe d'abord, c'est l'amplification des relations transférentielles des utilisateurs avec les robots « humanisés ».
Une autre conséquence évidente est la difficulté de la régulation. Par exemple, il est difficile d’empêcher les contenus douteux, voire abusifs, dans les supports d’enseignement à distance. N’importe qui peut mettre en place un robot convivial pour donner un cours sur n’importe quel sujet avec des informations fournies par un chatbot, sans aucune modération par un professionnel du domaine.
Un autre exemple évident réside dans les utilisations possibles en marketing. En facilitant la création d’adorables robots publicitaires conçus pour faire la publicité de produits avec des voix engageantes écrites par des chatbots, ces outils rendent presque impossible la définition de la fausse publicité. Manipuler l’affection des consommateurs est-il une tentative de tromperie ou non ?
Peut-être, avant de continuer, le lecteur voudrait-il s’arrêter pour réfléchir aux utilisations possibles – bonnes ou mauvaises – de ces ressources dans son domaine de travail. Vous serez probablement surpris par la diversité et la multiplicité des possibilités qui s'offriront bientôt à vous.
Réflexions finales
Pour conclure, demandons-nous quel type de risque pourrait représenter le développement accéléré de ces technologies. Ayant écarté l’hypothèse de la superintelligence des robots et de leur compréhension du langage naturel, nous n’avons plus à craindre d’être dépassés et, à terme, détruits par ces machines – à moins de leur avoir indûment attribué une certaine maîtrise des armements. Si cette erreur avait été dûment évitée, aurions-nous encore quelque chose à craindre ?
Une réponse évidente consiste à réduire les emplois. Aujourd’hui, cela dépasse de loin les prévisions du début de l’ère de l’automatisation. Imaginez donc ce qui pourrait arriver désormais, lorsque les assistants virtuels tendront de plus en plus à remplacer les préposés, réceptionnistes et autres responsables de la communication entre les entreprises et le public.
Ainsi, comme c'est déjà le cas pour les banques en ligne, les entreprises et les administrations, l'absence de quelqu'un capable de comprendre les demandes des clients tend à compromettre de plus en plus la qualité des services. De cette façon, les plaintes ne fonctionneront guère, car personne ne pourra les entendre et se mettre à la place du plaignant – aussi gentil que puisse paraître le robot en charge.
Nous serons alors sans relâche soumis à la tyrannie des formulaires en ligne pour obtenir ce que nous voulons. Et c’est dans cette bureaucratisation sans limites, gérée par des machines qui ne comprennent rien, que réside le plus grand risque pour l’humanité des technologies du langage : une conversation désincarnée, dénaturalisée, déshumanisée, obligatoire avec des machines pourrait finir par provoquer un choc sans précédent sur la santé mentale collective.
Nous ne sommes pas des machines, nous ne pensons pas, n’agissons pas et ne parlons pas selon les lois séquentielles de la mécanique. Mais nous pouvons apprendre à imiter sa logique afin d’obtenir plus facilement les produits et services dont nous avons besoin.
Et comme le prédisait Charles Chaplin dans Les temps modernes, nous courons le risque de développer les délires les plus divers jusqu’à plonger dans un délire obsessionnel – qui n’est pas le même que celui qui affecte les agents des régimes fascistes : c’est la version pusillanime qui infecte tous ceux qui s’y soumettent.
* Eleonora Albano, professeur retraité de l'Institut d'études linguistiques de l'Unicamp, est psychologue, linguiste, essayiste ; coordonné le premier projet brésilien sur la technologie vocale.
notes
[I] Modèles linguistiques et théories linguistiques au-delà des mots. Nat.Mach. Intellect. 5, 677-78 (2023).
[Ii] John B. Watson. La psychologie telle que la perçoit le comportementaliste. Revue psychologique, 20, 158-177.
[Iii] David Lyon. Surveillance et puissance des plateformes Cambridge Journal des régions, de l'économie et de la société, volume 16, numéro 2, juillet 2023, pages 361–365, https://doi.org/10.1093/cjres/rsad006
[Iv] Frederick Jelinek, chercheur tchéco-américain renommé dans le domaine des procédures de langage naturel et de la reconnaissance vocale, est devenu célèbre en 1985 en déclarant : « Chaque fois que je licencie un linguiste, les performances du système de reconnaissance vocale augmentent. » Ce sentiment est également vrai pour les modèles de langage de pointe (LLM), qui semblent être principalement des artefacts de l'informatique et de l'ingénierie. Les LLM et la linguistique traitent des langues humaines, mais il n'est pas clair si ni comment ils peuvent s'améliorer mutuellement (traduction de l'auteur).
[V] Josh Dzieza. L’armée (sous-)humaine qui alimente l’IA. Autrement dit, le 29 juin 2023.
[Vi] Voici un exemple clair :
https://alexandrehefren.wordpress.com/2010/03/14/determinismo-e-gramatica-sintagmatica-gs-parte-1/
[Vii] Pourquoi les grands modèles linguistiques sont de mauvaises théories de la cognition linguistique humaine. Une réponse à Piandadosi. Biolinguistique, 2023, sous presse.
[Viii] Noam Chomsky : la fausse promesse de ChatGPT. Répétition invitée. NY Times, 8 mars 2023.
[Ix] « En tant qu'IA, je suis un modèle d'apprentissage automatique formé sur de grandes quantités de données textuelles et je n'ai aucune expérience ni sentiment personnel. Je ne suis pas conscient, conscient de moi-même ou capable d'avoir des perspectives personnelles. Je peux fournir des informations et des analyses basées sur les données sur lesquelles j'ai été formé, mais je n'ai pas la capacité de me forger des opinions ou des convictions personnelles. Même si je peux comprendre et interpréter le langage, je n’ai pas l’expérience subjective des humains. (traduction automatique Google, revue par l'auteur).
[X] Un « transhumain » est une créature humaine hypothétique dotée d’implants cérébraux qui la connectent aux robots.
[xi] « Le concept d’intelligence, de conscience, de sensibilité et de capacité à porter des jugements moraux des chatbots est complexe et fait toujours l’objet de débats parmi les experts. Il n’existe pas de définition unique de ces termes et ils sont souvent utilisés de manière interchangeable.
Certains experts estiment que les chatbots peuvent être intelligents, mais pas conscients ou sensibles. Ils soutiennent que les chatbots sont simplement des algorithmes très sophistiqués, capables de traiter les informations et de répondre d’une manière qui semble intelligente. Cependant, ils n’ont pas le même niveau de conscience ou de conscience de soi que les humains. (traduction automatique Google, révisée par l'auteur)
[xii] « Les deux phrases sont grammaticalement correctes, mais elles ont des significations différentes.
La première phrase, « La personne que Mary a rencontrée hier et dont John parlera à Ed demain est arrivée » est plus concise et directe. Cela nous dit que la personne que Mary a rencontrée hier est la même personne dont John parlera à Ed demain.
La deuxième phrase, « La personne que Mary a rencontrée hier est arrivée et John parlera à Ed de sa nouvelle idée demain » est plus détaillée. Cela nous dit que la personne que Mary a rencontrée hier est la même personne que John parlera à Ed de sa nouvelle idée demain.
La première phrase est meilleure si vous voulez souligner le fait que les deux personnes sont égales. La deuxième phrase est meilleure si vous souhaitez souligner le fait que John parlera à Ed de sa nouvelle idée.
En fin de compte, la meilleure expression dépend du contexte dans lequel elle est utilisée.
[xiii] Joseph Weizembaum. Puissance informatique et raison humaine : du jugement au calcul. New York : WF Freeman & Co, 1976.
[Xiv]Joseph Weizenbaum ; Gunna Wendt. Îles dans le Cyberstream: À la recherche de refuges de raison dans une société programmée. Traducteur : Benjamin Fasching-Gray. New York : Litwin Books 2015 [2008].
[xv] John McCarthy Un livre déraisonnable. Disponible en:
http://jmc.stanford.edu/artificial-intelligence/reviews/weizenbaum.pdf
[Xvi] Dwight Hines. Examen de la puissance informatique et de la raison humaine : du jugement au calcul, par Joseph Weizenbaum, Le journal de l'esprit et du comportement, printemps 1980, vol. 1, n° 1, p. 123-126.
[xvii] En mai dernier, la presse a annoncé que Geoffrey Hinton, le père de l'IA, avait quitté l'entreprise parce qu'il regrettait ses contributions dans le domaine. A voir sur :
https://www.bbc.com/portuguese/articles/cgr1qr06myzo
[xviii] Voici Skinner entraînant des pigeons dans son laboratoire : https://www.youtube.com/watch?v=TtfQlkGwE2U
[xix] Noam Chomsky. Examen du comportement verbal de Skinner. La langue. 1959; 35: 26 – 58.
[xx] https://www.hereafter.ai/
[Xxi] https://www.youtube.com/watch?v=Jr8yEgu7sHU&ab_channel=TalentRecap
la terre est ronde existe grâce à nos lecteurs et sympathisants.
Aidez-nous à faire perdurer cette idée.
CONTRIBUER