Dans le cadre de la conférence “IA générative et création : quels enjeux juridiques ?” organisée le 27 mars 2023 par les professeurs Célia Zolynski (Observatoire de l'Intelligence artificielle de Paris 1) et Édouard Treppoz (Institut de recherche juridique de la Sorbonne (IRJS), cette table ronde filmée a été animée par cette dernière accompagnée de deux étudiantes en Master 1 "Droit du numérique, parcours droit privé" de l'Ecole de Droit de la Sorbonne à savoir Alexia MEIMOUN et Clémence GIRARD. Les panélistes rassemblés étaient les suivants :
- Raja CHATILA, Professeur émérite d’informatique, Sorbonne Université, membre du Comité National Pilote d’Ethique du Numérique (CNPEN)
- Alexis LEAUTIER, Ingénieur expert CNIL
- Alexandre PIQUARD, Journaliste au Monde
Si ChatGPT est un sujet actuel, il pose de nombreuses questions et implique de nouveaux enjeux éthiques, mais également juridiques. C’est dans cet objectif qu’il est nécessaire de comprendre le fonctionnement de ces IA génératives. Voici donc les différents sujets qui ont été abordés dans le cadre de cette table ronde :
1. Présentation des IA génératives et du fonctionnement de ChatGPT
Les IA génératives, comme ChatGPT, représentent un sujet aux enjeux importants. Il est ainsi nécessaire de savoir comment cela fonctionne de façon précise et technique. À l’origine, dans le cadre des IA génératives, était utilisé le même langage que celui s’appliquant aux êtres humains, mais pour des systèmes informatiques. Il s’agit ainsi d’un langage « naturel » pour lequel il est nécessaire de travailler sur son interprétation à travers les machines. Cela représente surtout l’un des plus vieux défis de l’informatique et de l’IA, au regard des difficultés que cela pose. En effet, cette interprétation est rendue difficile compte tenu des questions de contexte servant à interpréter les mots ainsi que des ambiguïtés de langage.
Plus particulièrement, les « grands modèles de langage » sont des systèmes d’IA avec des réseaux de neurones, présents en grand nombre, et utilisant de très grands modèles qui se mesurent en paramètres. À titre d’illustration, ChatGPT 3 (ouvert aux utilisateurs depuis juillet 2020 et produit par OpenAI) est un système, qui parmi les milliards de paramètres, va apprendre en fixant ses paramètres et en traitant des données textuelles récoltées sur Internet mais aussi dans la sphère privée. L’utilisation de ces données permet à ChatGPT d’affiner sa capacité d’interprétation et de développer un apprentissage non supervisé. En effet, aucune solution n’est donnée au système, puisque c’est ce dernier qui supervise lui-même la classification des données avec des exemples de textes récoltés sur Internet et grâce à un langage utilisant des mots. Toutefois, au regard du nombre de mots et de caractères très élevé, il est nécessaire de trouver un moyen de coder les textes en trouvant un intermédiaire entre les 26 lettres de l’alphabet et les milliers de mots qui existent. Pour y remédier, les « tokens » sont utilisés et constituent des paramètres composés de quatre caractères dont la mise en commun permet de coder un texte. De la même façon que l’architecture particulière des réseaux de neurones dénommés « transformers », ces derniers permettent de prendre en compte le contexte dans l’interprétation du langage naturel, ce qui est essentiel dans l’entraînement d’un outil tel que ChatGPT. Effectivement, si le nom ChatGPT contient le préfixe « chat », c’est parce que cela caractérise notamment sa fonction d’agent conversationnel, permettant ainsi d’interagir de façon continue, d’où la nécessité de prendre en compte le contexte.
Dans l’architecture « transformers », il existe deux moyens de traitement : les encodeurs et les décodeurs, permettant de prendre en compte les contextes précédents et d’avoir une meilleure interprétation de la situation. À titre d’exemple, ChatGPT 3 comportait 4 000 tokens alors qu’il en existe 32 000 dans ChatGPT 4, ce qui représente ainsi une plus grande taille et donc une meilleure appréhension du contexte, expliquant pourquoi ChatGPT 4 a la capacité de traduire un document de 50 pages, ce dont n'était pas capable ChatGPT 3. Dans le système des IA génératives, les tokens sont utilisés comme vecteurs pour trouver d’autres tokens similaires dans le contexte qui précède ou qui suit l’interprétation, la traduction etc. Ces systèmes peuvent ainsi servir de base pour des systèmes dits « à usage général ». Toutefois, le problème demeure concernant la législation en cours de préparation en droit de l’Union européenne car il y a une focalisation sur le risque de tels systèmes. Or, le risque réside dans l’application et non la technique de ces systèmes. En effet, les systèmes généraux, n’étant pas focalisés sur l’application de données, échappent donc à la possibilité d’être soumis à la législation à cause de l’approche basée sur le risque.
Enfin, ces systèmes détiennent divers risques tels que l’opacité des paramètres, les biais venant des données notamment, l’instabilité due aux modifications, le manque de robustesse causée par le manque de vérification ou encore un réel impact environnemental. Ces risques sont notamment dus au fait que les choix effectués par les ingénieurs d’OpenAI ne sont ni connus, ni divulgués dans aucune publication. Ainsi, le manque de transparence induit une lacune dans la compréhension par l’utilisateur ainsi que le régulateur.
2. L'essor et le succés de ChatGPT
Le succès de ChatGPT serait en partie dû à la communication et au succès de son interface plutôt qu’à sa technique elle-même. En effet, les spécialistes pensent que son essor fulgurant est davantage lié à sa politique de publication et à la possibilité de le rendre accessible à tous. Cela étant, ce succès génère une forme d’aigreur des concurrents. À titre d’exemple, Meta a souligné à quel point il n’y avait pas de différence et de supériorité technologique dans ce que fait OpenAI (1). Google a quant à lui évoqué le risque réputationnel. C’est pourquoi, des entreprises telles que Google et Méta n’auraient pas osé lancer un tel système.
3. L'objectif commercial de ChatGPT
Il est possible de penser que le but de ChatGPT est commercial, en diffusant une technologie « gratuite » au début, en l’imposant aux utilisateurs, puis en la « refermant ». Il s’agit en effet d’une démarche commerciale pour laquelle OpenAI pense devenir leader sur le marché du Chatbot. Enfin, cette ouverture a permis aux utilisateurs de remarquer qu’ils pouvaient l’utiliser pour leurs besoins, ce qui crée ainsi une opportunité de marché pour OpenAI mais également des enjeux importants d’un point de vue éthique.
4. Les limites de ChatGPT
ChatGPT détermine lui-même ses limites en estimant qu’il détient une « connaissance limitée ». Une connaissance limitée qui découle notamment d’un point de coupure en 2021, lorsque l’entreprise a décidé de développer cette version. Ainsi ChatGPT n’a pas été mis à jour depuis 2021, probablement à cause du coût d’entraînement de l’outil. En effet, sur le marché, toutes les entreprises ne sont pas capables de mettre à jour quotidiennement leurs données, ce qui constitue toutefois une limite. D’autant plus, qu’il est possible de supposer que par souci de reproductibilité de l’approche, il y a une volonté d’avoir un ensemble de données d’entraînement défini. Il existe cependant des entraînements quotidiens de données avec des protocoles permettant d’entraîner les modèles fréquemment. Mais, dans le cadre de ChatGPT, est-ce réellement souhaitable ? Il est possible de supposer qu’il n’est pas préférable pour l’entreprise elle-même de mettre à jour fréquemment son modèle, même si certaines en font la promesse.
Depuis, OpenAi a annoncé que désormais, ChatGPT pouvait faire ses recherches sur le Web.
5. La présence de biais de discrimination dans ChatGPT
Les biais de discrimination sont un problème inhérent à tous les styles et systèmes d’IA puisqu’ils sont présents à différents endroits. En effet, même dans l’ensemble des données utilisées pour l'entraînement, normalement représentatives pour éviter la présence de biais, certains biais se retrouvent présents dans ces données, reflétant la société. Le système de ChatGPT est entraîné avec des données trouvées majoritairement sur Internet. Par conséquent, les biais de la société peuvent se retrouver dans les données d’entrée. En outre, au sein de l’algorithme lui-même, il est possible de mesurer ces biais en réalisant des tests sur les sorties, ce qui permet de s’assurer que ces biais sont présents mais pas excessivement importants pour les utilisateurs de l’outil. Ainsi, à la sortie de l’outil, il sera possible de s’assurer qu’il n’existe pas de comportement discriminant pour certaines catégories de personnes, notamment avec un « score de confiance ». Plus ce score sera bas, moins la sortie sera fiable et plus les discriminations seront probables. Cependant, malgré ces possibilités préventives, les biais demeurent fréquents et ne sont pas forcément évidents, puisqu’ils sont inhérents à la manière dont est utilisée l’IA.
C’est pourquoi dans ses travaux, la CNIL s’interroge sur l’utilisation de l’IA (2) par les entreprises publiques et privées. Elle recommande d’étudier l’algorithme lui-même, ce qui demeure toutefois difficile et demanderait des ressources humaines importantes. Concernant les IA génératives, cela est encore récent. De ce fait, s’il existe une connaissance de l’existence de ces outils, l’impact de leur utilisation reste encore inconnu. La CNIL souhaite mener des travaux sur ce sujet et a donc créé un service de l’IA (3) qui va s’intéresser à ces questions. Puisque la mission initiale de la CNIL est de constater l’impact des nouvelles technologies dans la société, même si le service consacré aux IA génératives n’est pas officiellement créé, la Commission a d’ores et déjà publié une série d’articles sur ces sujets, en relevant les différents enjeux juridiques et éthiques à travers une étude prospective.
⇒ Le plan d'action de la CNIL sur l'intelligence artificielle
6. L'effet boîte noire et la perte de contrôle de l'humaine sur ChatGPT et les IA
À l’origine, la boîte noire date du début de l’IA statistique et découle du fait qu’il n’existe aucun lien entre les paramètres du système. Ainsi, il est impossible de savoir comment une valeur du paramètre va influencer le résultat à la sortie. Ces systèmes ne sont pas transparents d’où l’existence de projets de recherche sur l’explicabilité de tels systèmes cherchant à expliquer la raison pour laquelle l’IA a produit un tel résultat en sortie. Si les biais sont existants, il est possible de les corriger en équilibrant les bases de données ou en focalisant le système sur d’autres points, puisque dans l’effet boîte noire c’est la maîtrise de la sortie qui est problématique. Ainsi, si le « contrôle humain » est souvent évoqué dans les solutions, ChatGPT répond également qu’il a des limites. Cela implique que s’il faut vérifier toutes les informations issues de ChatGPT, il serait plus raisonnable d'aller directement chercher l’information. En somme, à travers le système de boîte noire, ChatGPT produit des sorties semblables à ce que pourrait produire un humain, donc il existe une certaine confiance envers la machine, qu’il est tout de même nécessaire d’aller vérifier.
Sur l’explicabilité, il n’était pas question de savoir comment la décision a été prise, mais plutôt de réfléchir sur l’idée que ces grands modèles posent un problème. La question aurait donc pu se poser de savoir s’il ne serait pas pertinent d’utiliser des modèles plus petits mais plus fiables, permettant ainsi de mieux tracer la décision finale.
7. La manipulation des informations sur ChatGPT
Il existe un constat selon lequel tous les chatbots pourraient livrer de fausses informations, ce qui relève d’un problème difficile à résoudre. Le fondateur d’OpenAI reconnaît qu’il s’agit d’ailleurs du plus grand problème, aussi bien avec les textes qu’avec les images. C’est un enjeu qui pourrait être limité avec l’entraînement du système sur des sets de données plus réduit. Mais qui déterminerait ce set de données ? N’existerait-il pas un risque de biais et d’atteinte à la liberté d’expression ? En effet, de telles questions rappellent celles qui se posent actuellement au sujet de la modération des réseaux sociaux et leur réglementation (4), les biais sont présents ainsi que les questions d’ordre politique. Il est possible de constater qu’il existe des réponses « polémiques » auxquelles il serait possible de remédier par une régulation basée sur la transparence des filtres, des retraits ou encore des actions effectuées. Ce qui n’est toutefois pas le cas aujourd’hui pour les IA génératives. Actuellement, les entreprises privées déterminent elles-mêmes les données pour entraîner les IA et parmi les URL des sites français, le constat est tel que seulement deux journaux ont permis d’entraîner le modèle, ce qui peut expliquer l’impact engendré sur la qualité de l’outil.
8. L'utilisation des données par ChatGPT
Il existe plusieurs types de données dans les systèmes d’IA génératives, mais les données sensibles font l’objet d’une protection spéciale. Il est possible de supposer que l’entreprise OpenAI ait tenté de retirer les données sensibles pour l’entraînement du système de ChatGPT. Toutefois, pour les autres données, il est probable que des règles existent afin d’éviter que les IA reproduisent, par exemple, le nom ou prénom de certaines personnes (5). De manière générale, les données sont réutilisées pour le contexte de l’outil mais également pour le réentraînement de ce dernier. La question se pose de savoir si lorsqu’un utilisateur se sert de l’outil, ses données pourraient être réutilisées lors d’une utilisation tierce. Puisqu’il s’agit encore d’une expérimentation, il conviendrait d’adopter une position vigilante, avec certaines précautions, puisqu’il serait possible de retrouver des données fournies dans un autre cadre. C’est d’ailleurs pour cette raison qu’Elon Musk, avait interdit à ses employés d’utiliser ChatGPT.
9. Une régulation et une réglementation nécessaire dans l'usage de ChatGPT
Initialement, la proposition de règlement sur la législation sur l’intelligence artificielle actuellement discutée dans les institutions de l'Union européenne n’avait pas traité ce sujet puisqu’elle envisageait une approche basée sur les risques (6). Or, les Chatbot n’étaient pas considérés comme hautement risqués. Il en résulte que seule une obligation de transparence leur était imposée. Toutefois, d’autres enjeux fondamentaux ont nécessité une régulation. Ainsi, sous la présidence française, il y a eu une révision incluant les systèmes dit : « à destination générale » (7). Un outil tel que ChatGPT fait désormais partie de la proposition de règlement sur la législation sur l’intelligence artificielle qui responsabilise celui qui fournit le système général. Toutefois, dans la mise en œuvre de cette réglementation, comment rattacher cette responsabilité à une peine ? Ces nouveaux enjeux démontrent que la technologie a avancé et donne raison à la démarche d’une réglementation avec des annexes (8), qui pourraient quant à elles évoluer au fil de la technologie.
Enfin, au sujet de la responsabilité des IA génératives en cas de préjudice, la question reste sans réponse. S’il existe une volonté d’ouvrir une forme de responsabilité, cela n’est pas clair et le texte en négociation détient de considérables enjeux. L’idée serait de faire reposer sur celui qui a créé le système un devoir de coopération avec une obligation de transparence induisant des données de bonne qualité et diminuant ainsi les risques de biais. D’un point de vue de lobbying, le règlement sur l’IA n’est pas encore hautement efficient, mais il est possible que la pression autour du texte a augmenté graduellement ces derniers temps.
(1) Voir à cet égard une déclaration de Yann LeCun, Responsable de l’IA chez Meta, lors d’une conférence du 23 janvier 2023. Aurore Gayte, “ChatGPT vous impressionne ? Yann LeCun s’en fiche”, Numerama, 25 janvier 2023.
(2) Laboratoire d’Innovation Numérique de la CNIL (LINC), Dossier « Intelligence artificielle ».
(3) CNIL, Création d’un service de l’IA à la CNIL et lancement des travaux sur les bases de données d’apprentissage, 23 janvier 2023.
(4) Règlement (UE) 2022/2065 du Parlement européen et du Conseil du 19 octobre 2022 relatif à un marché unique des services numériques et modifiant la directive 2000/31/CE (règlement sur les services numériques) (Texte présentant de l’intérêt pour l’EEE).
(5) Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016, relatif à la protection des personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de ces données, et abrogeant la directive 95/46/CE (règlement général sur la protection des données), art. 9
(6) Proposition de règlement du Parlement européen et du Conseil établissant des règles harmonisées concernant l’intelligence artificielle et modifiant certains actes législatifs de l’Union, COM/2021/206 final, avril 2021, art. 4.
(7) Proposition de règlement du Parlement européen et du Conseil établissant des règles harmonisées concernant l’intelligence artificielle et modifiant certains actes législatifs de l’Union, COM/2021/206 final, avril 2021, art. 8.
(8) Proposition de règlement du Parlement européen et du Conseil établissant des règles harmonisées concernant l’intelligence artificielle et modifiant certains actes législatifs de l’Union, COM/2021/206 final, avril 2021, annexes.
Tags: chatgpt creation ethique ia ia generatives intelligence artificielle replay
Infos
- Yohan Loiseau (yloiseau)
- Oct. 6, 2023, 4:11 p.m.
- Conferences/colloques/seminars
- French