Tour d’horizon des IAs génératives d’images

On se sert d’IAs pour beaucoup de choses, et dans beaucoup de domaines. Parmis les cas d’usage, certains ont rapidement conquis le grand public : les IAs générant du texte (ChatGPT, Bard…) et les IAs générant des images. Cet intérêt peut probablement être associé à leur facilité d’accès, leur côté « bac à sable » (qui n’a jamais envoyé des bêtises à ChatGPT juste pour voir ce qu’il répondrait ?), et surtout leur utilité pour un grand nombre de catégories de personnes, des professionnels aux particuliers curieux. Si vous avez lu le titre, vous aurez compris que cet article porte sur la deuxième catégorie : les IAs permettant de générer des images.

Cas d’utilisation

Avant de vous fournir une liste (non-exhaustive) des principaux acteurs du domaine, il faut d’abord expliquer ce que monsieur tout-le-monde peut faire avec. La caractéristique principale de ces IAs est bien sûr de générer une image sur commande. Là où cela devient intéressant, c’est qu’il existe bien des manières d’influer sur l’image générée.

Depuis un prompt

C’est le cas d’utilisation le plus simple, et le plus utilisé. Le principe est de fournir un texte à l’IA (un « prompt »), qui s’en servira pour générer une image. Petit exemple :

Bien que certaines IAs commencent à mieux interpréter la langue de Molière, l’anglais est à privilégier. Il faut aussi garder à l’esprit que l’IA ne « comprend » pas ce qu’elle génère. Il peut donc être utile de l’aider en décrivant mieux une scène si les premièers tentatives sont infructueuses. Pour la même raison, il est conseillé de guider l’IA concernant le style à donner à l’image. Des mots comme « photorealistic » permettent ainsi d’obtenir un rendu plus « photographique », ou « painting of… » pour un tableau, etc…

Depuis une autre image et un prompt

Le principe reste très similaire, mais ici il est question de fournir une image de « départ » à l’IA, pour qu’elle la réinterprète ou la modifie. Cela peut être une photo, une peinture, ou un simple dessin. Exemple :

L’image de gauche a été générée avec l’image de droite et le texte « painting of an angel, gold hair, wearing laurels, wings, bathed in diving light, head halo, christian art, goddess, art nouveau, tarot card, rococo »

Bien entendu, ces générations nécessiteront quelques essais en modifiant le prompt et les paramètres avant d’obtenir satisfaction.

Modifier une partie de l’image : l’inpainting

L’objectif est de modifier une image existante, mais pas dans son ensemble : on commence par « peindre » sur l’image d’origine la partie à retravailler. Puis on fournit un prompt définissant à quoi devrait ressembler l’image finale une fois la partie peinte regénérée :

L’homme de droite a été généré à partir de l’homme de droite dont on a peint la bouche et le haut de la tête, et avec le prompt « a happy red-bearded guy, wearing a hat with flowers in it »

Ici, seule la bouche et le dessus de la tête ont été modifiés. Cela permet de retoucher des images existantes, mais aussi de corriger les erreurs d’une image générée à partir d’un simple texte. On commence par la génération par texte puis, lorsque l’image est satisfaisante, on modifie les parties à améliorer via l’inpainting.

Etendre le cadre d’une image : l’outpainting

Extension directe de l’inpainting, l’outpainting permet de demander à l’IA d’imaginer ce qu’il y a en dehors du cadre de l’image d’origine.

Au centre, on reconnaît la peinture originale de Vermeer, La jeune fille à la perle. L’IA a ensuite générée la pièce autour d’elle.

Cas d’utilisation plus avancés

L’objectif n’étant pas de présenter une à une les (trop) nombreuses capacités incroyables de ces IAs, voici une liste de traitements plus avancés qui ne seront pas montrés en détail :

  • Générer une vidéo à partir d’un prompt : en générant des images successives qui prennent en compte le contexte de l’image précédente, il est possible de générer des vidéos à la demande.
  • Générer une vidéo à partir d’une autre vidéo : en se calquant (par exemple) sur les mouvements d’une personne dans une vidéo, on peut générer un personnage bougeant de la même manière.
  • Modifier la pose d’un personnage : ne pas toucher au personnage initial, mais le faire s’asseoir, courir, etc…

Où peut-on tester ces IAs ?

Dall-E 2

Dall-E a été la première IA suffisamment performant pour créer des images exploitables et accessibles à un nombre suffisant de personnes pour devenir viral. Bien que premier ne signifie pas nécessairement meilleur, DALL-E 2 reste un acteur très important du secteur (la sortie prochaine de Dall-E 3 est extrêmement prometteuse).

Le principal étant que l’interface est ridiculement simple à utiliser. Tapez ce que vous voulez voir, cliquez sur « Générer » et en quelques secondes, vous aurez le choix entre quatre variations générées par l’IA.

Malheureusement, l’essai de DALL-E 2 n’est pas gratuit, mais à 15 $ pour 115 crédits, soit environ 0,13 $ par message ou 0,0325 $ par variation d’image.

Pour essayer : https://labs.openai.com

MidJourney

C’est la première IA à avoir remporté un concours d’art (sans que les jurys ne soient au courant, bien évidemment). C’est actuellement ma préférée en terme de qualité des images générées, de cohérence dans les scènes, etc…

Malheureusement, Midjourney souffre d’un inconvénient majeur : la version bêta n’est accessible que via Discord. Une fois que vous avez rejoint le serveur Discord de Midjourney ou invité le bot Midjourney sur un serveur que vous contrôlez, vous pouvez envoyer un message dans le canal de discussion, sous la forme /imagine [ce que vous voulez voir]. Sont alors générées quatre variantes de votre message, que vous pouvez ensuite télécharger, mettre à l’échelle, rééditer, etc.

Par défaut, chaque image générée est affichée publiquement sur le Discord de Midjourney. Cela confère à l’ensemble un aspect communautaire intéressant, mais cela signifie aussi que toute personne intéressée peut voir ce que vous créez. Bien que ce ne soit pas nécessairement un problème pour les artistes, cela peut être un obstacle si vous cherchez à utiliser Midjourney à des fins professionnelles.

Les essais gratuits de Midjourney sont actuellement suspendus en raison du nombre trop important de personnes qui essaient de l’utiliser, mais ils sont parfois rétablis pour quelques jours. Si vous manquez une fenêtre d’essai gratuit, le plan de base commence à 10 $/mois et comprend 3,3 heures de temps de GPU par mois, soit environ 200 images. Vous avez également la possibilité d’acheter du temps GPU supplémentaire et vous pouvez utiliser vos images à des fins commerciales.

Pour essayer : https://docs.midjourney.com/docs/quick-start

Stable Diffusion

Contrairement à DALL-E 2 et Midjourney, Stable Diffusion est une solution OpenSource. Cela signifie que toute personne possédant les compétences techniques requises peut la télécharger et l’exécuter localement sur son propre ordinateur.

Cela signifie également qu’il est possible d’entraîner et d’affiner le modèle à des fins spécifiques. Pour cette raison, presque tous les services qui utilisent l’IA pour générer des portraits artistiques, des portraits historiques, des rendus architecturaux etc… utilisent Stable Diffusion. Si vousquelques heures devant vous et un bon ordinateur, c’est le meilleur moyen d’intégrer votre style à vos créations.

Si vous souhaitez en savoir plus, la rediffusion de la conférence que j’ai donné sur le sujet est disponible ici.

Pour tester en ligne : https://clipdrop.co/stable-diffusion

Le mot de la fin

Le domaine de la génération d’images, à l’instar des autres utilisations de l’IA, évolue extrêmement vite. Les bonds technologiques sont rapides et impressionnants, et leurs capacités grandissent à chaque nouvelle version.

Je vous invite donc à essayer par vous même, apprendre, rater, retenter, et surtout suivre les actualités autour de ces modèles !

Partager l'article:

Autres articles