Art et intelligence artificielle

illustrations illustrations illustrations illustrations illustrations illustrations illustrations
post-thumb

Publié le 2 novembre 2023 par Andrew Owen (12 minutes)

Il est universellement reconnu qu’une technologie unique qui fait l’objet d’une attention soutenue de la part des médias doit être en quête d’une législation gouvernementale. C’est ainsi que les gouvernements de 28 pays, dont les États-Unis, l’Inde et la Chine, se sont réunis pour signer la déclaration de Bletchley sur l’intelligence artificielle (IA). Cette déclaration porte le nom de Bletchley Park, où Alan Turing a travaillé comme décrypteur de code (et ma grand-mère maternelle comme estafette de l’armée) pendant la Seconde Guerre mondiale. Turing est devenu célèbre en inventant le test de Turing pour mesurer l’intelligence artificielle: une machine pouvait-elle tromper un humain en lui faisant croire qu’elle était humaine? On peut dire que ce test a été réussi en 1989 lorsqu’un étudiant de l’University College Dublin a passé une heure et vingt minutes à discuter avec un chatbot abusif appelé MGonz.

La troisième loi de l’écrivain de science-fiction Arthur C. Clarke est la suivante: “Toute technologie suffisamment avancée ne peut être distinguée de la magie”. Nous vivons à une époque où la compréhension par le public de la technologie sur laquelle nous avons bâti notre société est incroyablement limitée. Pour beaucoup, l’IA n’est pas seulement indiscernable de la magie, elle est indiscernable de l’intelligence et de la créativité humaines. Nous devons vraiment faire un meilleur travail d’éducation. Mais le dictionnaire Collins a désigné l’IA comme son mot de l’année, alors peut-être y parviendrons-nous tôt ou tard. L’objectif déclaré de la déclaration de Bletchley est de stimuler les efforts mondiaux de collaboration en matière de sécurité de l’IA. L’idée d’ordinateurs intelligents malveillants existe depuis les années 1960, mais elle a été popularisée par le film “The Termniator”, sorti en 1984. Mais les craintes sont-elles justifiées?

Il y a vingt ans, le philosophe Andreas Matthias posait la question: “Qui est responsable si l’IA fait du mal?” Nous n’avons toujours pas de réponse. Prenons l’exemple de l’expérience de pensée de philosophie morale de Phillipa Foot de 1967, communément appelée “le problème du chariot”:

Un chariot (tramway) à la dérive se dirige tout droit vers cinq personnes attachées et incapables de bouger. Vous vous trouvez à côté d’un levier. Si vous le tirez, le chariot passera sur une voie latérale, mais il y a une personne dessus. Vous n’avez que deux possibilités: > 1. 1. Ne rien faire et cinq personnes meurent. 2. Tirez le levier et une personne meurt.

Quel que soit le choix que vous faites, vous êtes responsable de votre décision. L’équivalent du problème du chariot pour le véhicule autonome est que les freins ont lâché et qu’en avançant, on tue une famille de cinq personnes dans la voiture qui précède, mais qu’en sortant de la route, on ne tue que l’unique occupant du véhicule. L’IA n’a pas de conscience. Elle ne peut que suivre sa programmation. Mais si cette programmation est le fruit d’un apprentissage automatique et non d’une instruction directe, la responsabilité juridique de la décision de l’IA n’est pas claire. Cela nécessitera une législation, et il faudra probablement plusieurs tentatives pour y parvenir.

À l’heure actuelle, l’IA que vous êtes le plus susceptible de rencontrer est de type grand modèle de langage (LLM). La génération actuelle passe facilement le test de Turing, mais elle n’est pas sensible. Tant que vous ne fournissez pas d’informations, aucun traitement n’a lieu. Aussi impressionnants soient-ils, les LLM ne sont qu’un processeur de langage naturel avancé, couplé à un générateur de texte prédictif avancé. La grande avancée dans le traitement du langage naturel est que les modèles ont cessé d’essayer d’analyser un mot à la fois et travaillent plutôt avec des blocs de texte. C’est ce qui rend la traduction automatique tellement meilleure qu’elle ne l’était auparavant. Mais ces outils sont limités par leurs ensembles de données. La traduction du français vers l’anglais est facile parce qu’il existe un vaste ensemble de textes publiés dans les deux langues. Mais si vous traduisez d’une langue peu courante vers une autre langue peu courante, l’anglais sera utilisé comme étape intermédiaire et la précision diminuera. Aucune augmentation de la puissance de traitement n’y remédiera. On ne peut y remédier qu’en augmentant la taille de l’ensemble des données. Cela se fera au fil du temps, à mesure que les humains fourniront un retour d’information sur les mauvaises traductions.

L’étape suivante du traitement du langage naturel a consisté à attribuer un poids aux mots et à les mettre en correspondance avec d’autres mots. Ces correspondances se produisent dans des centaines de dimensions: le LLM. Cela permet à l’IA d’interpréter vos commandes et de générer des résultats. Mais les résultats se produisent généralement un mot à la fois. Sur la base de votre requête, l’IA génère le premier mot. Il détermine ensuite quel mot est susceptible de suivre. Il itère jusqu’à ce que votre requête soit résolue. Mais il y a une limite au nombre de mots qu’il conserve dans sa mémoire tampon. Il peut s’agir de 2048 mots. Lorsqu’il arrivera à générer le 5 000e mot, il aura oublié plus de la moitié de ce qui a précédé. Il n’y a pas d’intention, ni de moralité. En fonction de l’ensemble des données, il vous donnera des contre-vérités plausibles ou, dans le pire des cas, des propos racistes. En fait, un grand nombre d’êtres humains sont actuellement employés pour élaguer les ensembles de données afin de filtrer les biais inhérents. Pour paraphraser Tom Lehrer: les ensembles de données sont comme un égout; ce que vous en retirez dépend de ce que vous y mettez.

Par ailleurs, le meilleur cas d’utilisation que j’ai trouvé pour les LLM à l’heure actuelle consiste à générer des réponses fausses et plausibles à des questions à choix multiples lorsqu’on leur donne la bonne réponse en guise d’entrée. Outre le fait que le contenu généré est erroné et potentiellement offensant, une autre considération est que les œuvres créées de cette manière ne sont probablement pas protégées par la loi sur le droit d’auteur. Vous vous souvenez peut-être du cas de David Slater, qui a tenté en vain de revendiquer des droits d’auteur sur des selfies pris par des macaques utilisant son équipement. En décembre 2014, le Bureau américain du droit d’auteur a déclaré que les œuvres créées par un non-humain n’étaient pas protégées par le droit d’auteur.

Et maintenant, je dois aborder l’éléphant dans la pièce: l’appropriation. J’ai lu beaucoup d’opinions sur ce sujet de la part d’informaticiens qui n’ont pas une compréhension fondamentale de l’art, et d’artistes qui n’ont pas une compréhension fondamentale de l’informatique. Un débat polarisé n’est pas un débat du tout. Il ne s’agit que de deux camps qui se crient dessus et se traitent de tous les noms. Il est dommage que Arnold Hauser ne soit plus là pour écrire un cinquième volume de “L’histoire sociale de l’art”, qui pourrait être sous-titré: “Postmodernisme, l’ère numérique”. Je pense qu’il est possible d’affirmer que Bart Nagel a inventé “l’art de l’IA” à Mondo 2000 dans les années 1990. Je m’explique.

Les artistes se plaignent que l’art de l’IA n’est qu’un “collage” d’œuvres existantes, en particulier de leurs œuvres, dont ils détiennent les droits, qui ont été utilisées sans leur consentement. Ce n’est pas aussi simple que cela. Les modèles artistiques sont similaires aux LLM en ce sens qu’ils modélisent des images étiquetées pour créer un ensemble de données. Mais ils ne stockent pas les images réelles. Les informaticiens affirment que les artistes humains peuvent s’appuyer sur l’ensemble de l’histoire de l’art et que l’IA n’est pas différente. Ils ont également tort. L’art est créé avec une intention, et l’IA n’a pas d’intention. Les informaticiens affirment que l’intention provient des instructions données à l’IA par l’homme. Mais l’IA n’est pas créative. Elle se contente d’utiliser le traitement du langage naturel pour examiner la requête, puis une approche déterministe pour générer quelque chose sur la base de son ensemble de données. Elle manque d’originalité. La même critique s’applique au texte génératif. N’oubliez pas l’égout: la banalité à l’intérieur, la banalité à l’extérieur.

Hauser a écrit:

L’art post-impressionniste est le premier à renoncer par principe à toute illusion de réalité et à exprimer sa vision de la vie par la déformation délibérée d’objets naturels. Le cubisme, le constructivisme, le futurisme, l’expressionnisme, le dadaïsme et le surréalisme se détournent avec la même détermination de l’impressionnisme lié à la nature et à la réalité.

Vous pourriez ajouter à votre ensemble de données l’histoire complète de l’art humain avant Picasso. Mais quelle que soit la requête que vous soumettiez, l’intelligence artificielle ne serait pas en mesure de produire “Guernica”. Mais revenons à Nagel.

Il y a une dizaine d’années, avec l’aide d’eBay et d’un obscur magasin de livres d’occasion de San Francisco (avec une carte de visite dessinée par Robert Crumb), j’ai rassemblé la série complète du magazine “Mondo 2000”. Succédant à “High Frontiers” et “Reality Hackers”, il s’agissait d’un magazine à financement indépendant publié à San Francisco de 1989 à 1998. Il y a eu 17 numéros en tout et un livre, A User’s Guide To The New Edge, qu’Albert Finney peut être vu en train de lire dans Karaoke de Dennis Potter. Il a été publié sporadiquement pendant la majeure partie de son existence et chaque fois que je me trouvais à Forbidden Planet à Cardiff, et qu’ils avaient un nouveau numéro en stock, je l’achetais. Vous en avez peut-être entendu parler sous sa nouvelle forme de blog. Vous avez aussi probablement entendu parler du magazine WiReD (lancé à San Francisco en 1993 et présentant un grand nombre des mêmes auteurs). La principale différence entre les deux est que, à ma connaissance, Mondo n’a jamais publié de publicité de trois pages pour une Lexus.

Soit dit en passant, le rédacteur en chef de Mondo avait prédit avec une certaine précision le monde dans lequel nous vivons aujourd’hui:

“Les techno-élites sont peut-être le seul groupe avantagé par la nouvelle économie. Ils seront les nouveaux seigneurs du terrain dans un monde de mendiants et de serviteurs à la Dickens. Ce n’est pas parce qu’ils se considèrent comme des hipsters que nous devons attendre d’eux qu’ils partagent les richesses.”-R. U. Sirius

Le directeur artistique de Mondo, le photographe Bart Nagel, a fait un usage intensif du collage Photoshop pour créer l’apparence du magazine. Nagel a dû faire le travail de recherche du matériel source et de composition numérique. Mais comme l’art de l’IA d’aujourd’hui, il était lié par l’ensemble des données. Mark Penner-Howell définit l’appropriation comme suit:

L’appropriation dans l’art est l’utilisation d’objets ou d’images préexistants avec peu de transformation. Dans les arts visuels, s’approprier signifie adopter, emprunter, recycler ou échantillonner des aspects (ou la forme entière) de la culture visuelle créée par l’homme. L’idée que la nouvelle œuvre recontextualise ce qu’elle emprunte est inhérente à notre compréhension de l’appropriation. Dans la plupart des cas, la “chose” originale reste accessible en tant qu’originale, sans changement significatif.

Il note que le terme “collage” a été utilisé pour la première fois pour décrire les œuvres de Braque et Picasso qui s’appropriaient des matériaux trouvés, notamment des journaux, des magazines, des partitions de musique, des échantillons de papier peint, etc. L’innovation de Nagel a consisté à remplacer la colle par la composition numérique. Bien que l’art de l’IA ne consiste pas littéralement à coller des images ensemble, je pense qu’il n’est pas totalement injuste de le considérer comme une forme de collage. Mais attendez, est-ce que cela signifie que je le considère comme de l’art? Je pense qu’il le faut. Demander à une IA de composer une image à partir de son ensemble de données est une expression artistique tout aussi valable que ce que faisait Nagel. Bien qu’il soit encore difficile de prouver le droit d’auteur. Et si l’image générée est substantiellement inchangée par rapport à une œuvre de référence, les lois existantes sur le droit d’auteur protègent l’artiste original. Mais s’agit-il d’une œuvre d’art? C’est une question de goût.

Mais je dirais que le domaine où l’IA a le plus d’impact est celui des soins de santé. La capacité d’appliquer l’apprentissage automatique à de vastes ensembles de données a d’énormes implications pour la découverte de médicaments, le diagnostic et la gestion des crises, pour n’en citer que quelques-uns. Cette semaine, il a été rendu public que l’Apple Watch a été développée à l’origine par une spin-off secrète d’Apple appelée Avolonte Health, dans le but d’inclure un moniteur de glucose non invasif. Cela reste un rêve plutôt qu’une réalité, mais Tim Millet, vice-président d’Apple chargé de l’architecture des processeurs, a été désigné pour superviser le projet. Il n’est donc pas surprenant que la puce S9 de la dernière Apple Watch soit dotée de quatre cœurs ML.

Nous sommes au cœur d’une révolution qui pourrait avoir un impact aussi profond sur la vie des gens que l’internet. Mais si nous regardons comment l’internet s’est développé, c’est souvent plus par chance que par jugement. Comme Barbie ou la fission nucléaire, l’IA est neutre. Elle peut être utilisée pour le plus grand bien ou pour causer de grands dommages. Si nous voulons faire les bons choix, nous devons nous assurer que nos décideurs politiques sont informés. Jusqu’à présent, ils n’ont pas beaucoup écouté les climatologues, mais il faut espérer que la prochaine génération fera mieux.

Postface

Le blog d’aujourd’hui coïncide également avec la sortie de la dernière chanson des Beatles. Elle est basée sur un enregistrement original sur cassette mono réalisé par John Lennon dans les années 1970. Elle comprend des parties de guitare enregistrées par George Harrison dans les années 1990 et de nouvelles contributions de Paul McCartney et Ringo Starr. Les membres survivants du groupe ont d’abord tenté d’en faire quelque chose dans le cadre du projet Beatles Anthology, mais cela a été jugé impossible en raison du niveau audio du piano par rapport à la voix de Lennon. Mais le logiciel d’apprentissage automatique de l’audio (MAL) développé par l’équipe de Peter Jackson pour le documentaire “Get Back” de 2021 permet de démixer et d’isoler complètement les voix et les instruments individuels.

Image: Couvertures de Mondo 2000 (numéros 1 à 6). Appropriée de Bart Nagel.