Image Generation with Stable Diffusion: A Step-by-Step Tutorial

Wie man eine benutzerdefinierte Diffusers-Pipeline für textgesteuerte Bildgenerierung erstellt

Dieses Tutorial führt Sie durch den Prozess der Erstellung einer benutzerdefinierten Diffusers-Pipeline für die textgesteuerte Bild-zu-Bild-Generierung mit dem Stable Diffusion-Modell, unterstützt durch die Hugging Face Diffusers-Bibliothek. Am Ende dieses Artikels sind Sie in der Lage, atemberaubende KI-generierte Kunstwerke aus einfachen Skizzen zu erstellen.

Einführung in Stable Diffusion

Stable Diffusion ist ein hochmodernes Text-zu-Bild Latent Diffusion Modell. Es wurde durch eine Zusammenarbeit von CompVis, Stability AI und LAION entwickelt. Dieses Modell wurde auf hochwertigen 512x512 Bildern trainiert, die aus einem Teilbereich der LAION-5B-Datenbank stammen. Es verwendet einen eingefrorenen CLIP ViT-L/14 Text-Encoder, um das Modell gemäß den Texteingaben zu steuern. Mit beeindruckenden 860M UNet und 123M Text-Encoder funktioniert dieses leichte Modell effektiv auf den meisten GPUs. Für tiefere Einblicke in seine Architektur siehe hier.

Erste Schritte

Bevor Sie mit der Nutzung des Stable Diffusion-Modells beginnen, gibt es einige Voraussetzungen:

Überprüfen und akzeptieren Sie die Lizenzvereinbarung des Modells, bevor Sie die Modellgewichte herunterladen oder nutzen.
Dieses Tutorial verwendet speziell die Modellversion v1-4; daher sollten Sie die Karte besuchen, die Lizenz lesen und das Zustimmungsfeld ankreuzen, wenn Sie einverstanden sind.
Ein Hugging Face Hub-Konto ist erforderlich, um fortzufahren, und Sie müssen ein Zugriffstoken erhalten. Weitere Informationen zu Zugriffstokens finden Sie im entsprechenden Abschnitt der Hugging Face-Dokumentation.

Anmeldung bei Hugging Face

Sie können sich erfolgreich bei Hugging Face mit der Funktion notebook_login anmelden:

from huggingface_hub import notebook_login
notebook_login()

Erstellung der Image2Image-Pipeline

Nachdem Sie sich angemeldet haben, können Sie die Image2Image-Pipeline starten. So geht's:

Pipeline laden: Laden Sie die erforderlichen Bibliotheken und Modelle herunter und importieren Sie sie.
Ein Ausgangsbild herunterladen: Wählen Sie ein Startbild aus und bereiten Sie es entsprechend vor, um die Kompatibilität mit der Pipeline sicherzustellen.
Definieren Sie Ihre Texteingabe: Erstellen Sie die Eingabe, die den Bildgenerierungsprozess steuert.
Pipeline ausführen: Führen Sie die Pipeline aus, um das neue Bild zu generieren.

Verständnis des Stärkeparameters

Der Stärke-Parameter, der von 0.0 bis 1.0 reicht, bestimmt die Menge an Rauschen, die dem Eingangsbild hinzugefügt wird. Ein Wert für Stärke, der sich 1.0 nähert, ermöglicht umfangreiche Variationen; dies kann jedoch zu Bildern führen, die weniger konsistent mit dem ursprünglichen Eingangsbild sind. Die Feinabstimmung dieser Einstellung ist entscheidend, um die gewünschten künstlerischen Effekte zu erzielen.

In Google Colab können Sie das generierte Bild einfach anzeigen, indem Sie Folgendes eingeben:

image.show()

Endergebnis

Herzlichen Glückwunsch! Sie haben erfolgreich eine einfache Skizze in ein wunderschönes KI-generiertes Kunstwerk umgewandelt. Durch Experimente mit unterschiedlichen Parameterwerten, insbesondere zur Anpassung der Stärke, können Sie beeinflussen, wie eng das generierte Bild der ursprünglichen Skizze ähnelt. Niedrigere Werte für die Stärke führen zu Bildern, die eng mit dem Original übereinstimmen, während höhere Werte abstraktere Variationen erzeugen.

Fazit

Vielen Dank, dass Sie dieses Tutorial erkundet haben! Wenn Sie diese Informationen nützlich fanden, entdecken Sie weiterhin eine Fülle von Ressourcen auf unserer Tutorial-Seite. Bei Fragen und weiterführender Unterstützung wenden Sie sich an Fabian Stehle, Data Science Intern bei New Native.