Comment créer un pipeline de diffuseurs personnalisé pour la génération d'images guidée par du texte
Ce tutoriel vous guidera à travers le processus de création d'un pipeline de diffuseurs personnalisé pour la génération d'images à partir d'images guidée par du texte à l'aide du modèle Stable Diffusion, facilité par la bibliothèque Hugging Face Diffusers. À la fin de cet article, vous serez capable de créer de superbes œuvres d'art générées par l'IA à partir de simples croquis.
Introduction à Stable Diffusion
Stable Diffusion est un modèle de diffusion latente à partir de texte à image de pointe. Il a été développé grâce à un effort collaboratif de CompVis, Stability AI et LAION. Ce modèle est entraîné sur des images de haute qualité de 512x512 provenant d'un sous-ensemble de la base de données LAION-5B. Il utilise un encodeur de texte CLIP ViT-L/14 gelé pour conditionner le modèle selon des invites textuelles. Avec son impressionnant UNet de 860M et son encodeur de texte de 123M, ce modèle léger fonctionne efficacement sur la plupart des GPU. Pour des informations plus approfondies sur son architecture, référez-vous à ici.
Commencer
Avant de plonger dans l'utilisation du modèle Stable Diffusion, il y a quelques prérequis :
- Consultez et acceptez l'accord de licence du modèle avant de télécharger ou d'utiliser les poids du modèle.
- Ce tutoriel utilise spécifiquement la version du modèle v1-4 ; assurez-vous donc de visiter sa page, de lire la licence et de cocher la case d'accord si vous y consentez.
- Un compte Hugging Face Hub est nécessaire pour continuer, et vous devez obtenir un token d'accès. Pour plus de détails concernant les tokens d'accès, consultez la section correspondante dans la documentation de Hugging Face.
Connexion à Hugging Face
Vous pouvez vous connecter avec succès à Hugging Face en utilisant la fonction notebook_login
:
from huggingface_hub import notebook_login
notebook_login()
Construction du pipeline Image2Image
Une fois connecté, vous pouvez initier le pipeline Image2Image. Voici comment :
- Charger le pipeline : Téléchargez et importez les bibliothèques et les modèles nécessaires.
- Télécharger une image initiale : Choisissez une image de départ et prétraitez-la de manière appropriée pour garantir sa compatibilité avec le pipeline.
- Définir votre invite textuelle : Construisez l'invite qui guidera le processus de génération d'image.
- Exécuter le pipeline : Lancez le pipeline pour générer la nouvelle image.
Comprendre le paramètre de force
Le paramètre force, allant de 0,0 à 1,0, dicte la quantité de bruit ajoutée à l'image d'entrée. Une valeur de force approchant 1,0 permet des variations étendues ; cependant, cela peut produire des images moins cohérentes avec l'entrée originale. Affiner ce paramètre est crucial pour obtenir les effets artistiques souhaités.
Dans Google Colab, vous pouvez afficher l'image générée en tapant simplement :
image.show()
Résultat final
Félicitations ! Vous avez réussi à convertir un simple croquis en belle œuvre d'art générée par l'IA. En expérimentant avec différentes valeurs de paramètres, notamment pour ajuster la force, vous pouvez influencer la ressemblance de l'image générée par rapport au croquis initial. Des valeurs de force plus basses produiront des images qui s'alignent étroitement avec l'original, tandis que des valeurs plus élevées produiront des variations plus abstraites.
Conclusion
Merci d'avoir exploré ce tutoriel ! Si vous avez trouvé ces informations précieuses, continuez à découvrir une multitude de ressources sur notre page de tutoriels. Pour des questions et des conseils supplémentaires, contactez Fabian Stehle, stagiaire en science des données chez New Native.
Laisser un commentaire
Tous les commentaires sont modérés avant d'être publiés.
Ce site est protégé par hCaptcha, et la Politique de confidentialité et les Conditions de service de hCaptcha s’appliquent.