Les solutions d’IA concevant des images via un écrit se multiplient

19/04/2023 Non Par Guillaume Pruvost

Il existe de plus en plus d’IA génératrices d’images via de simples écrits. Le mécanisme utilisé par ces solutions est simple : l’utilisateur donne une description de l’image désirée et cette dernière est conçue de manière automatique grâce au texte fourni. Or, ce genre d’intelligences artificielles engendrent de multiples interrogations. Focus sur DALL-E, un système pensé et conçu par OpenAI. Il produit rapidement des images via un écrit. Il est disponible en mode bêta.

L’importance de la cohérence sémantique

Afin de concevoir son IA, OpenAI (société basée à San Francisco experte dans le raisonnement artificiel, à « but lucratif plafonné ») se base sur des études portant sur les réseaux antagonistes génératifs – souvent nommés GANs pour « Generative Adversarial Networks » – caractérisés par des intégrations d’écrits. Ces derniers ont deux réseaux de neurones. Le premier est un générateur, dont la finalité est de concevoir des images d’un réalisme saisissant. L’autre est un discriminateur dont la mission est d’assurer la véracité des clichés produits par le générateur. On se sert de cette méthode pour la conception de deepfakes (hypertrucages).

Néanmoins, la solution DALL-E se démarque : elle change l’écrit en images en conservant une grande cohérence sémantique lui offrant la possibilité de parfaitement cerner le lien entre les objets pour une image. Ainsi, un individu galopant à cheval, aura la bonne position et on ne le retrouvera pas sur la tête de l’animal. Dans ce but, l’IA est alimentée grâce à une gigantesque base d’images intégrant des légendes. Ainsi, elle utilise ce contenu pour fabriquer une « fausse image ».

Autres avantages de cette solution : vous pourrez intégrer des concepts, des attributs ou des styles dans les données d’entrée. La dernière version de DALL-E offre une résolution optimale des images en 1024 pixels, et non plus 256 pixels comme auparavant.

Des clichés réalistes avec Nvidia

Il n’y a pas que DALL-E ! Focus sur Crayion. Il s’agit d’une version grand public engendrant six images dévoilées à travers une grille. Appelé DALL-E Mini à ses débuts, l’IA se nomme donc désormais Crayon. La société OpenAI en a fait la demande pour que ces deux intelligences artificielles ne soient pas confondues.

Open AI n’est pas l’unique groupe à se pencher sur ces IA d’avenir. La société Nvidia a également mis sur pied une IA nommée GauGAN. Au contraire des deux options du dessus, l’option proposée par Nvidia offre la possibilité de changer une description en une photo présentant un réalisme saisissant. Toutefois, la modification de la photo conçue est possible via des croquis. Par exemple, vous pourrez intégrer un animal en encerclant une zone bien précise et en étiquetant ce dernier. Ainsi, vous indiquez à l’IA que vous souhaitez voir un animal apparaître dans cette zone.

De l’écrit et des croquis

Le géant Meta a dévoilé des travaux de recherches sur sa plateforme de création d’œuvres d’art et d’images nommée « Make a scene ». Grâce à cette solution, vous pouvez concevoir une image via un simple écrit. Classique pour l’instant. Aspect original de cet outil : la conception d’un visuel via un croquis et une description. La société a désiré intégrer le croquis dans la fabrication d’une image afin de gagner en précision.

Les informations d’entrée textuelles, comme par exemple « peinture d’un chien sur un vélo », peuvent produire des résultats surprenants. En intégrant l’écrit au croquis, cela permet de placer parfaitement les éléments sur le visuel. Ainsi, le contenu est plus fidèle à ce que désire l’utilisateur.

Meta affirme que l’IA représente un énorme potentiel pour l’expression créative. Désormais, les internautes peuvent concevoir et gérer leurs contenus grâce à une simple IA. Make a scene est une solution validée par des artistes !

Des questions éthiques

À la source de ce type d’intelligences artificielles, il y a le projet DeepDream signé Google. Il s’agit d’un programme de vision par ordinateur, se basant sur un réseau neuronal convolutif, utilisant des visuels afin d’offrir un résultat unique. Or, les images obtenues n’avaient aucun rapport avec la réalité. On peut même dire qu’elles étaient littéralement psychédéliques !

Les IA de créations d’images sont encore pointées du doigt. Des interrogations demeurent notamment dans le cadre du droit. Récemment, le groupe OpenAI a affirmé que sa variante bêta élargissait les droits d’auteurs pour qu’on puisse se servir des visuels pour des projets marketing (vente de vêtements ou illustrations pour des livres). Pour l’instant, on ne peut pas concevoir de visuels via un nom particulier ou intégrant un visage familier. D’ailleurs, des méthodes sont utilisées par l’entreprise OpenAI pour stopper les conceptions photo-réalistes de vrais visages de personnes.

Ces intelligences artificielles soulèvent beaucoup de questions. Elles sont même un véritable enjeu de société, mêlant le vrai et le faux. Si on peut concevoir un visuel réaliste via une fausse donnée, cette dernière peut bénéficier d’une diffusion rapide et durable. Or, les fake news et le phénomène de la désinformation sont des thèmes majeurs actuellement, contre lesquels les sociétés modernes luttent. C’est pourquoi proposer ce genre de solutions sans se pencher sur un cadre et une réglementation n’est pas possible.