Génération d'images avec Stable Diffusion : Un tutoriel étape par étap

Comment créer un pipeline de diffuseurs personnalisé pour la génération d'images guidée par du texte

Ce tutoriel vous guidera à travers le processus de création d'un pipeline de diffuseurs personnalisé pour la génération d'images à partir d'images guidée par du texte à l'aide du modèle Stable Diffusion, facilité par la bibliothèque Hugging Face Diffusers. À la fin de cet article, vous serez capable de créer de superbes œuvres d'art générées par l'IA à partir de simples croquis.

Introduction à Stable Diffusion

Stable Diffusion est un modèle de diffusion latente à partir de texte à image de pointe. Il a été développé grâce à un effort collaboratif de CompVis, Stability AI et LAION. Ce modèle est entraîné sur des images de haute qualité de 512x512 provenant d'un sous-ensemble de la base de données LAION-5B. Il utilise un encodeur de texte CLIP ViT-L/14 gelé pour conditionner le modèle selon des invites textuelles. Avec son impressionnant UNet de 860M et son encodeur de texte de 123M, ce modèle léger fonctionne efficacement sur la plupart des GPU. Pour des informations plus approfondies sur son architecture, référez-vous à ici.

Commencer

Avant de plonger dans l'utilisation du modèle Stable Diffusion, il y a quelques prérequis :

Consultez et acceptez l'accord de licence du modèle avant de télécharger ou d'utiliser les poids du modèle.
Ce tutoriel utilise spécifiquement la version du modèle v1-4 ; assurez-vous donc de visiter sa page, de lire la licence et de cocher la case d'accord si vous y consentez.
Un compte Hugging Face Hub est nécessaire pour continuer, et vous devez obtenir un token d'accès. Pour plus de détails concernant les tokens d'accès, consultez la section correspondante dans la documentation de Hugging Face.

Connexion à Hugging Face

Vous pouvez vous connecter avec succès à Hugging Face en utilisant la fonction notebook_login :

from huggingface_hub import notebook_login
notebook_login()

Construction du pipeline Image2Image

Une fois connecté, vous pouvez initier le pipeline Image2Image. Voici comment :

Charger le pipeline : Téléchargez et importez les bibliothèques et les modèles nécessaires.
Télécharger une image initiale : Choisissez une image de départ et prétraitez-la de manière appropriée pour garantir sa compatibilité avec le pipeline.
Définir votre invite textuelle : Construisez l'invite qui guidera le processus de génération d'image.
Exécuter le pipeline : Lancez le pipeline pour générer la nouvelle image.

Comprendre le paramètre de force

Le paramètre force, allant de 0,0 à 1,0, dicte la quantité de bruit ajoutée à l'image d'entrée. Une valeur de force approchant 1,0 permet des variations étendues ; cependant, cela peut produire des images moins cohérentes avec l'entrée originale. Affiner ce paramètre est crucial pour obtenir les effets artistiques souhaités.

Dans Google Colab, vous pouvez afficher l'image générée en tapant simplement :

image.show()

Résultat final

Félicitations ! Vous avez réussi à convertir un simple croquis en belle œuvre d'art générée par l'IA. En expérimentant avec différentes valeurs de paramètres, notamment pour ajuster la force, vous pouvez influencer la ressemblance de l'image générée par rapport au croquis initial. Des valeurs de force plus basses produiront des images qui s'alignent étroitement avec l'original, tandis que des valeurs plus élevées produiront des variations plus abstraites.

Conclusion

Merci d'avoir exploré ce tutoriel ! Si vous avez trouvé ces informations précieuses, continuez à découvrir une multitude de ressources sur notre page de tutoriels. Pour des questions et des conseils supplémentaires, contactez Fabian Stehle, stagiaire en science des données chez New Native.

Génération d'images avec Stable Diffusion : Un tutoriel étape par étape