Overblog
Editer l'article Suivre ce blog Administration + Créer mon blog
17 février 2024 6 17 /02 /février /2024 10:19

Les mystères de l’IA via ChatGPT

C’est à l’occasion de la lecture d’un article paru dans le journal ‘Le Monde’ du 27 Décembre, avec le titre : ‘ChatGPT comprend beaucoup plus que nous le prétendons’, que je tente, à la hauteur de mes connaissances sur ce sujet, d’élucider cette dimension mystérieuse. L’auteur de cet article est Hugues Bersini, directeur du Laboratoire d’intelligence artificielle de l’Université libre de Bruxelles, et il lance une alerte sur l’incompréhensible fossé qui se creuse entre la manière dont cette technologie est mise en œuvre et les performances ou les usages dont elle est capable (sic). 

En lisant cet article alarmiste, je me demandai si l’inquiétude de Bersini eut été de même nature s’il avait connu et étudié les travaux remarquables du linguiste Emile Benveniste (1902-1976) que l’on peut découvrir dans l’ouvrage suivant : ‘Dernières Leçons, Collège de France 1968-1969)’ (EHESS, Gallimard, Seuil)[1]. Personnellement, j’ai fait cette incursion à l’occasion d’une réflexion sur les grands débats scientifiques entre, entre autres, N. Bohr et A. Einstein durant les années 1920-1930, avec l’avènement de la Mécanique Quantique. Cette incursion, qui fut pour moi éclairante, m’a conduit à poster un article sur mon blog le 11/07/2012 : ‘Faire alliance avec les linguistes pour avancer’, dont je citerai ci-après quelques extraits.

Dans un premier temps, je cite : I), de larges extraits de l’article de H. Bersini ; puis j’indique les éclairages : II), pouvant répondre, à mon avis, à son questionnement grâce aux travaux d’E. Benveniste ; j’expose : III), les informations basiques qu’il faut connaître à propos du fonctionnement global de l’IA ; enfin IV), j’exploite ces connaissances interdisciplinaires.

I) Je cite : « Selon Geoffrey Hinton[2], il ne fait aucun doute que ChatGPT comprend beaucoup plus que nous ne le prétendons dans les médias. Pourtant, pendant sa phase d’entrainement, ce logiciel était censé apprendre simplement à prédire le prochain mot d’une phrase, et pour l’essentiel à partir d’une quantité gigantesque (des milliards) de textes qu’on lui présente. En tant qu’humain nous n’avons pas appris la logique, l’arithmétique ni le codage informatique en complétant des textes donnés en exemple, alors pourquoi et comment lui y parvient ? le mystère est à son comble (sic)… l’IA neuronale, inconsciente et apprenante est codée par des humains, sous forme de règles syntaxiques, logiques et autres ontologies sémantiques.

            Comment fait ChatGPT, pour induire les règles générales de l’arithmétique, au départ de la simple présentation des multiples opérations arithmétiques contenues dans les textes dont on l’a abreuvé ? Comment fait-il pour générer les bons codes informatiques, contenant les bonnes variables et instructions, adaptés à tout problème nouveau exprimé en langage courant, qu’on lui demande de résoudre ?... Comment procède ChatGPT pour, dans ses milliards de connexions synaptiques, maîtriser toutes les abstractions cognitives (générer du texte syntaxiquement correct et riche de sens, résoudre des opérations mathématiques d’une certaine complexité, produire des logiciels syntaxiquement corrects) passer de l’une à l’autre sans difficulté aucune, et cela dans toutes les langues ? Interrogeons-le.

            Après interrogation l’auteur réagit : « Tu ne nous aides vraiment pas, ChatGPT !» et il s’inquiète du fossé épistémologique béant qui s’est creusé, entre la manière dont cette technologie est mise en œuvre et les performances et les usages dont elle est capable, qui s’avère le plus déroutant.

            Reconnaissons-le, comme il l’affirme, ChatGPT comprend et raisonne mais d’une manière qui nous est, à nous, devenue incompréhensible. Comment un prédicteur statistique du mot qui suit dans une phrase peut-il se retrouver à résoudre des problèmes logiques, mathématiques et informatiques d’une telle complexité ?

            Quelque chose de magique se produit dans ces milliards de paramètres, ces centaines de couches neuronales, qui s’adaptent d’eux-mêmes pour composer ces gigantesques modèles de langage. La démarche scientifique exige de comprendre cette incroyable prouesse (sic). »

II) Quelle est cette magie ? Comment comprendre cette incroyable prouesse ?

Comme je l’ai indiqué, une incursion dans les travaux d’E. Benveniste peut nous aider à répondre à ces deux questions très actuelles. A cet effet, je cite un extrait de mon article du 11/07/2012, extrait qui offre une synthèse de ma lecture de ces travaux. Comme on pourra le constater, les considérations de Benveniste sur le langage nous permettent de réfléchir comment la langue fabrique du sens, comment se constituent les significations. Questions qui ne figurent pas dans le programme habituel des linguistes, parce qu’ils supposent le plus souvent le sens donné, et donc ils cherchent à scruter sa transmission plutôt que son émergence. En 1968, Benveniste a cette idée neuve : c’est au sein des phrases, dans la succession des termes, que s’engendre le sens. La signification est générée par ce qui est en train de se dire, par l’énonciation, par les phrases en mouvement, proférées par un sujet singulier. On est fort loin d’avoir tiré les enseignements de cette conception dynamique mais voilà ce qui devrait attirer notre attention avec l’émergence de notre perplexité à cause des performances supposées de l’IA.

Extrait : « L’essentiel de la langue, c’est de signifier. Comment ça signifie ? Comment s’engendre la capacité de penser dans l’appareil même du langage ? Ce qui ressort quand on suit Benveniste c’est que le langage sert tout autant à concevoir du sens qu’à transmettre du sens. Et probablement plus à en concevoir. Pour Benveniste : « ça signifie » est synonyme de « ça parle », et c’est donc sans le recours à quelque « réalité externe » ou « transcendantale », mais dans les « propriétés » du langage même (sic), qu’il prospecte et analyse les possibilités de faire sens, spécifiques de cet « organisme signifiant » qu’est l’humanité parlante. (Cela laisserait entendre que le langage construit son monde sans se référer, sans le recours, sans quelque prélèvement à une quelconque réalité externe, qui serait a priori accessible au sujet pensant.) Etudier le « pouvoir signifiant » dans les propriétés mêmes du langage, selon Benveniste, « signifier » constitue un principe interne du langage (sic). Il a cherché à montrer comment l’appareil formel de la langue la rend capable non seulement de « dénommer » des objets et des situations mais surtout de « générer » des discours aux significations originales, aussi individuelles que partageables dans les échanges avec autrui. » « L’organisme de la langue génère aussi d’autres systèmes de signes qui lui ressemblent ou augmentent ses capacités, mais dont elle est le seul système signifiant capable de fournir une interprétation. »

 « Enoncer quelque chose, c’est aussi un acte cognitif : une pensée s’énonce en mots » »

Avant d’exploiter les matériaux offerts par E. Benveniste, j’expose : III), les informations de base qu’il faut connaître à propos du fonctionnement global de l’IA. Certaines de ces informations m’ont été données par ChatGPT même, directement après l’avoir interrogé sur ce sujet :

III) « Il est important de noter que ChatGPT ne possède pas de compréhension profonde ou de conscience de soi (sic). Les réponses sont basées uniquement sur les probabilités statistiques des mots ou des phrases. Ainsi, pour générer un texte, ChatGPT va calculer, à partir d'une séquence de mots, les probabilités qu'une autre séquence de mots la suive, puis proposer la suite la plus probable. Les modèles de langage les plus couramment utilisés sont des algorithmes d’apprentissage automatique qui apprennent à prédire la probabilité d’un mot donné étant donné un contexte de mots précédents (sic)En d’autres termes, ils apprennent à faire suivre un mot après un autre déjà existant. Les modèles de langage sont souvent utilisés pour générer du texte en utilisant des réseaux de neurones récurrents (RNN). Les RNN sont des réseaux de neurones qui peuvent prendre en compte des séquences de données, telles que des séquences de mots dans un texte. » Il existe également des modèles de langage plus avancés, tels que GPT-3 de OpenAI, qui utilisent des transformers pour générer du texte. Les transformers sont des modèles de langage qui peuvent prendre en compte des relations à long terme entre les mots dans un texte. Ils sont capables de générer du texte plus cohérent et plus naturel que les modèles de langage traditionnels (sic).  

C’est au cours des dernières années, que l'intelligence artificielle a réussi à faire de grandes percées grâce au développement de l'apprentissage profond. Dixit Nicolas Doyon[3] : « On travaille désormais avec des réseaux de neurones à plusieurs couches : une couche d'entrée, des couches intermédiaires et une couche de sortie. Entre un neurone d'une couche et un neurone d'une autre couche, il y a une force de connexion, aussi appelée poids synaptique[4], et lorsque le réseau apprend, chacun de ces poids est ajusté. Et comment le réseau apprend-il ? Par entraînement, c’est ce qu’indique le P de GPT (Generative Pre-trained Transformer) Pour y arriver, ChatGPT a dû s'entraîner sur des milliards de données. La teneur de cette lecture tient bien sûr du secret professionnel. Cependant, on peut supposer que le réseau, pouvant comprendre plusieurs dizaines de millions de neurones artificielles (sous forme d’algorithmes), a été entraîné à partir de plus de 300 milliards de mots, correspondant à des milliards de pages enregistrées dans des mémoires informatiques. »

A mon avis, c’est à ce niveau que ce trouve que se trouve le nœud de notre affaire. L’apprentissage consiste à obtenir de la part du réseau artificiel des réponses aux requêtes humaines. Réponses justes, évaluées comme telles, lors de la finalisation de l’apprentissage. La phase d’apprentissage dure généralement plusieurs mois pour l’essentiel, elle est très coûteuse en temps informatique et en temps humain d’évaluation des réponses. C’est à travers ce processus y compris celui de corrections rétroactives[5] que s’établit, empiriquement au sein du réseau, les corrections des poids ‘synaptiques’ qui progressivement s’ajustent pour fournir les ‘bonnes’ réponses attendues par l’évaluateur humain de ce bon fonctionnement du réseau. Ces allers et retours pour entrainer ‘les transformer’ peuvent se compter en milliers de fois voire plus si nécessaire, jusqu’à ce que les réponses aux requêtes deviennent optimales en accord avec les attentes. Nous devrions nous demander si cet entraînement des ‘transformer’ ne nous conduirait pas à ce qu’ils décryptent les secrets de la construction syntaxique de la langue. 

IV) En prenant en compte les travaux d’E Benveniste : « Sa conception dynamique de l’engendrement du sens au sein des phrases, dans la succession des termes. Sa génération de la signification par ce qui est en train de se dire, par l’énonciation, par les phrases en mouvement. », on pourrait considérer que c’est à cette dynamique la que l’on initie les Transformer. L’exploitation des milliards de pages de textes existants, par les réseaux neuronaux de l’IA, dans des boucles en nombres sans limites d’apprentissage visant à concevoir du sens pour les requêtes à venir de l’utilisateur humain autoriserait à considérer que ces réseaux neuronaux sont initiés aux propriétés du langage même. Si on en croit Hughes Bersini cela se ferait ‘à l’insu de notre plein gré’. Et il pourrait être bien plus édifié s’il partageait le résultat des études de Benveniste pour qui : « Signifier constitue un principe interne du langage, de même que l’appareil formel de la langue la rend capable non seulement de dénommer des objets et des situations mais surtout de générer des discours aux significations originales, aussi individuelles que partageables dans les échanges avec autrui. »

En fait, avec la mise en œuvre de l’IA, si on croit Benveniste nous acceptons de déléguer à l’IA une part de ce que nous sommes, je cite : « les possibilités de faire sens sont spécifiques de cet organisme signifiant qu’est l’humanité parlante. »

N’oublions pas que durant ces dix dernières années de développement de l’IA, des fondateurs se sont mis en retrait, de même que certains demandent que tout développement soit définitivement abandonné car selon eux, des résultats, des conséquences, échappent déjà à leurs créateurs.

Dans cette partie ci-dessus de l’article j’utilise le conditionnel hypothétique, pour que ceux qui découvrent les travaux d’E. Benveniste s’approprient, réflexivement, personnellement, ses découvertes d’une façon ou d’une autre. Quant à moi, depuis le temps que je parcours ses travaux sans être pour autant un spécialiste de la linguistique, ce conditionnel n’est pas nécessaire.  

L’idée : « que l’humanité parlante serait un organisme signifiant d’où émanent les possibilités de faire sens », mérite, à mon avis, qu’elle soit approfondie. Cette coexistence voire cette coïncidence entre l’humanité parlante et cet organisme signifiant, fait entendre une intrication complète entre le genre humain et le pouvoir de l’expression langagière de l’humanité. Bref, l’humanité a pour berceau le langage qui lui fait sens.

Cette idée renvoie à un article que j’ai posté sur mon blog, le 10/10/2013, avec le titre : Comment nous sommes devenus avec/dans le langage ?’. Je fus motivé à l’écriture de cet article par la découverte de celui de la revue scientifique : ‘Plos One’, de N. Uomini et G. Meyer, indiquant qu’il y avait une concomitance sérieusement probable entre le début de l’émergence et du développement d’un (proto)langage et la capacité à travailler le silex pour fabriquer des outils. Cela remonterait à peu près à 1,75 millions d’années avec Homo erectus. Là encore, ma motivation première concernait exclusivement l’approfondissement des ressources de notre discours à propos de la science physique. Ci-dessous, je cite quelques extraits :

« Ce sujet est délicat car il est bien connu, à force de tentatives, qu’il est quasiment impossible de nous approprier une compréhension stable de ce que nous sommes en tant qu’être humain. Pouvons-nous penser ce que nous avons été avant que nous soyons ce que nous sommes, c’est-à-dire un être de langage, un être de pensée ? N’oublions pas que les philosophes du langage à la fin du 19e siècle ont considéré que leur discipline pouvait progresser seulement s’ils renonçaient collectivement à essayer de penser l’homme avant le langage. A partir de ce renoncement concerté, la linguistique (étude du langage établi) a pu prendre son essor.

Si cela est ainsi, si c’est grâce à l’intercession de la nature qu’Homo erectus s’est engagé dans la voie extraordinaire de l’Être de langage, cela peut être considéré comme une humiliation de plus comme celle que Darwin nous a infligée avec sa découverte de l’évolution, suivie par celle de Freud avec sa découverte de l’inconscient. La faculté de langage ne serait donc pas une faculté intrinsèque individuelle[6] qui nous aurait caractérisé tout au long de la longue marche de l’humanité (entamée il y aurait à peu près 7 millions d’années) mais un surgissement d’une réelle et âpre confrontation entre ce qu’est la nature et une action sur celle-ci pour en tirer un avantage. Selon l’article cité, nous serions donc à même de dater les prémices de l’émancipation de l’être de la nature qui commence à se construire en un être dans la nature.

La coévolution des deux aptitudes proposées par N. Uomini et G. Meyer est à mes yeux pertinente car le processus intellectuel visant à façonner le silex dans un but déterminé met en jeu une faculté de projection, d’anticipation, comme lorsqu’il s’agit de concevoir, façonner, le mot qui convient pour exprimer une volonté, une pensée, aussi élémentaires qu’elles puissent être. Projeter implique de penser aussi l’existence d’un temps au-delà de l’immédiateté de l’instant présent. C’est une des raisons qui m’a conduit à toujours proposer la concomitance : langage – pensée – flux du temps, et à mes yeux cette concomitance constitue un propre de l’homme. »

Selon mon point de vue, que j’ai forgé avec l’aide des scientifiques plusieurs disciplines, avec les outils en plein développement de l’Intelligence Artificielle, nous serions en train d’artificialiser une grande partie de ce qui constitue notre patrimoine humain. Cela étaye effectivement l’alarme générale lancée par Hugues Bersini qui : « Alerte sur l’incompréhensible fossé qui se creuse entre la manière dont cette technologie est mise en œuvre et les performances ou les usages dont elle est capable », et qui réclame une : « démarche scientifique [qui] exige de comprendre cette incroyable prouesse »

La concurrence potentielle à laquelle nous soumet notre pure création qu’est l’IA, nous soumet à l’obligation de nous interroger sur ce qui fait de nous des êtres humains et ne pourrait pas être artificialisable. Voilà un questionnement typiquement humain et qui nous oblige à transcender la routine de notre existence fondamentale.

A priori les perspectives de développement de l’IA, ne s’arrête pas à celui de l’IA générative telle que ChatGPT. Les autres étapes dans le collimateur des sociétés de développement sont celles de l’IA interactive, de l’IA autonome, de l’IA consciente.

Récemment, Mark Zuckerberg, PDG de Meta (Facebook), a révélé un investissement colossal de plus de 10 milliards de dollars dans l'infrastructure informatique visant à développer l'Intelligence Artificielle Générale (AGI). Contrairement à l'intelligence artificielle (IA) actuelle, spécialisée dans des tâches spécifiques, l'AGI ambitionne d'égaler ou de surpasser les capacités humaines (sic) dans une vaste gamme de tâches cognitives complexes. Affaire à suivre… La boîte de Pandore est ouverte. Mais approfondissons nos recherches car au fond de la boîte il y a encore l'Espérance.

 

[1] Il a aussi publié, entre autres, « Problèmes de linguistique générale 1 et 2 » respectivement en 1966 et 1974.

[2] Chercheur canadien spécialiste de l'intelligence artificielle et plus particulièrement des réseaux de neurones artificiels. Prix Turing 2019. Il a été l'un des premiers chercheurs à avoir fait la preuve de l'utilisation de l'algorithme de rétropropagation pour l'entraînement de réseaux de neurones multi-couches. Il fait partie des figures de proue de la communauté de l'apprentissage profond et de ceux qui ont alerté sur les risques nouveaux liés à l'intelligence artificielle

[3] Professeur titulaire, Département de mathématiques et statistique, Faculté de Sciences et génie.
Université Laval. Québec.

[4] En étudiant le fonctionnement des neurones humains, on a découvert qu'ils ne réagissent pas à tous les messages qu'ils reçoivent. Un message doit atteindre un seuil minimal. Les synapses ne servent pas uniquement à transmettre l'information d'un neurone à l'autre ; leur plasticité jouerait un rôle central dans l'apprentissage. Les chercheurs ont, en effet, remarqué que la force de connexion des synapses évolue avec le temps. "De manière simplifiée, plus une synapse est utilisée, c'est-à-dire plus elle propage un potentiel d'action vers le neurone suivant, plus elle devient forte. On voit bien au microscope que, lorsqu'une personne apprend, l'épine dendritique, une région du neurone, devient plus grosse. Bref, en devenant plus grosse et plus forte, la synapse modifie peu à peu notre manière de penser", spécifie Nicolas Doyon.

[5] Obtenues grâce à la technique de rétropropagation du gradient qui est une méthode permettant de calculer le gradient de l'erreur pour chaque neurone d'un réseau de neurones, de la dernière couche vers la première. Il est dit que l’application de cette technique a permis à l’IA de faire un remarquable progrès stratégique.

[6] Voir dans le livre de Paolo Bartolomeo : « Dernières nouvelles du cerveau », Edit : Flammarion, sept. 2023, page 83 : « Selon le linguiste israélien Daniel Dor, la métaphore la plus appropriée pour le langage n’est pas celle de l’ordinateur, mais plutôt celle du Net. Le langage est avant tout une technologie construite pour la communication… »

Partager cet article
Repost0

commentaires

Présentation

  • : Le blog de mc2est-cesuffisant
  • : Ce blog propose une réflexion sur les concepts fondamentaux de physique théorique. Le référentiel centrale est anthropocentrique. Il attribue une sacrée responsabilité au sujet pensant dans sa relation avec la nature et ses propriétés physiques. L'homme ne peut être nu de toute contribution lorsqu'il tente de décrypter les propriétés 'objectives' de la nature.
  • Contact

Recherche

Liens