Comment l’IA textuelle est déjà en train de polluer l’Internet

23/12/2022 Non Par Arnaud Lefebvre

Cette année a été marquée par des avancées significatives dans le domaine de l’intelligence artificielle. Plusieurs outils IA ont été lancés récemment. D’une part, des systèmes d’IA tels que DALL-E 2 ou Stable Diffusion sont dorénavant capables de créer des images. D’autre part, le nouveau chatbot IA ChatGPT développé par OpenAI peut lui générer des blagues, des essais et d’autres types de textes personnalisés.

Les limites et risques des traitements de langage IA

Toutefois, ces outils ont leurs limites, écrit Melissa Heikkilä sur MIT Technology Review.

Dans certains cas, il est facile de remarquer qu’une image ou un morceau de texte a été créé par une intelligence artificielle. Cependant, les résultats générés par ces modèles sont de plus en plus souvent impossibles à distinguer d’un contenu créé par l’homme. Par ailleurs, les meilleurs traitements de langage peuvent créer un texte à première vue correct contenant en réalité des mensonges.

En effet, l’IA utilise des mots corrects dans le bon ordre. Toutefois, elle ne connaît pas véritablement leur signification. Il s’agit de modèles qui fonctionnent via la prédiction du mot suivant le plus probable dans une phrase. Mais ils ne savent pas si quelque chose est correct ou faux.

Ces erreurs peuvent sembler amusantes au premier abord. Cependant, elles pourraient avoir de graves conséquences. En effet, elles peuvent être utilisées pour offrir des conseils de santé ou d’autres informations importantes non filtrées.

En outre, les systèmes d’IA pourraient également faciliter la création d’une multitude de fausses informations, d’abus et de spams. Parmi ces risques, on trouve également la possibilité que ces IA déforment notre consommation d’information et même notre sens de la réalité.

Il s’agit d’un phénomène particulièrement inquiétant surtout en période d’élection, explique la chroniqueuse.

Naissance d’une boule de neige de désinformation

Parallèlement, ces systèmes peuvent avoir des implications plus sérieuses sur le long terme. Heikkilä se demande ainsi si nous n’assistons pas en temps réel à la naissance d’une boule de neige de désinformation.

La formation de ces grands modèles de langage se base sur des ensembles de données construites en grattant Internet pour la construction d’un texte. Ces données incluent une kyrielle de d’idées toxiques, idiotes, fausses et malveillantes produites par les humains.

Ensuite, ces modèles d’IA finis régurgitent ces mensonges comme des faits et leur diffusion a lieu partout en ligne.

Finalement, les entreprises technologiques grattent à nouveau Internet pour glaner du texte rédigé par IA. Elles utilisent cette collecte pour la formation de modeles plus grands et encore plus convaincants. Par conséquent, les humains peuvent générer davantage de bêtises elles-mêmes grattées encore et encore et ce, jusqu’à la nausée.

Ce problème concerne également les images.

Selon Mike Cook, chercheur en IA au King’s College de Londres, Internet est désormais contaminé pour toujours par les images générées par intelligence artificielle.

Les images IA créées en 2022 intègreront désormais tous les modèles conçus à partir de maintenant, explique-t-il.

À l’avenir, il sera de plus en plus compliqué de trouver des données de formation de bonne qualité et garanties sans IA, explique Daphne Ippolito, chercheuse principal chez Google Brain, l’unité de recherche de l’entreprise pour l’apprentissage en profondeur.

Selon Ippolito, il est crucial de déterminer si la formation de ces modèles doivent être basés sur l’intégralité internet ou s’il existe des moyens de procéder au filtrage d’éléments de haute qualité capables de nous fournir le type de modèle linguistique que nous souhaitons.

De l’importance de nouveaux outils de détection des textes générés par IA

« Nous avons désespérément besoin de moyens de différencier le texte écrit par l’homme et l’IA afin de contrer les utilisations abusives potentielles de la technologie, déclarait récemment Irene Solaiman, directrice des politiques de la start-up AI Hugging Face, anciennement chercheuse en IA chez OpenAI.

La création d’outils de détection de textes générés par l’IA deviendra cruciale lors de la soumission d’articles scientifiques ou d’articles universitaires écrits par IA. Ces outils seront également essentiels lors des tentatives d’utiliser l’intelligence artificielle pour la création de fausses nouvelles ou de désinformation.

Selon Ippolito, les outils technologiques peuvent devenir un soutien. Cependant, les humains doivent aiguiser leur sens de l’observation et devenir plus avertis. Ses recherches montrent qu’avec un peu de pratique, les humains peuvent s’entraîner à mieux repérer les textes générés par intelligence artificielle.

La chercheuse explique que plusieurs signes peuvent montrer qu’un texte a été écrit par une IA.

Dans un premier temps, les êtres humains sont des écrivains désordonnés. Leurs écrits contiennent des fautes de frappes et des expressions argotiques. Rechercher ce type de manquements est utile pour identifier s’il s’agit d’un texte écrit par un humain.

En revanche, les grands modèles de langage fonctionnent via la prédiction du mot suivant dans une phrase. Ils utiliseront davantage des mots courants au lieu de mots étrangers et peu courants.

Et même s’ils fournissent presque toujours une bonne orthographe du mot, ils se trompent. Ainsi, selon Ippolito, les lecteurs devraient rechercher les incohérences subtiles ou les erreurs factuelles dans les textes présentés comme des faits.