Tutorial de Stable Diffusion: Prototipado con la interfaz web

¿Qué es Stable Diffusion?

Stable Diffusion es un modelo de difusión de aprendizaje profundo, texto a imagen, que fue lanzado en 2022. Esta herramienta innovadora ha revolucionado la forma en que generamos imágenes a partir de descripciones textuales. Si bien su función principal es crear imágenes visualmente impactantes a partir de indicaciones textuales, cuenta con una variedad de otras aplicaciones, incluyendo inpainting, outpainting y traducción de imagen a imagen, todas guiadas por indicaciones textuales específicas.

Cómo usar la interfaz web de Stable Diffusion localmente

Si deseas probar el modelo en tu entorno local, puedes utilizar la interfaz web de Stable Diffusion desarrollada por el usuario AUTOMATIC1111 en GitHub. Esta interfaz te permite validar tus ideas de manera eficiente y está construida sobre Gradio, una popular biblioteca de Python diseñada para crear componentes de UI.

Características de la interfaz web de Stable Diffusion

Modos originales txt2img e img2img: Convierte fácilmente las indicaciones de texto a imágenes y viceversa.
Script de instalación y ejecución con un solo clic: Simplifica el proceso, aunque se requiere la instalación previa de Python y Git.
Outpainting: Expande imágenes más allá de sus bordes originales.
Inpainting: Repara o modifica áreas específicas dentro de una imagen.
Boceto a color: Genera bocetos a color basados en indicaciones.
Matriz de indicaciones: Gestiona múltiples indicaciones de manera eficiente.
Mejora de Stable Diffusion: Mejora la calidad de la imagen con técnicas avanzadas.
Atención: Dirige el enfoque del modelo hacia elementos textuales específicos para obtener mejores resultados.
Pestaña de extras con varias herramientas:
- GFPGAN: Una red neuronal diseñada para corregir imágenes de cara.
- CodeFormer: Una herramienta de restauración de rostro que sirve como alternativa a GFPGAN.
- RealESRGAN: Un escalador de red neuronal para la mejora de imágenes.
- ESRGAN: Otra red neuronal de escalado que admite modelos de terceros.
- SwinIR y Swin2SR: Escaladores de red neuronal avanzados, se pueden encontrar más detalles aquí.
- LDSR: Tecnología de escalado de superresolución de difusión latente.
Opciones de relación de aspecto de redimensionamiento: Ajusta fácilmente las dimensiones para satisfacer tus necesidades.
Botón de artista aleatorio: Genera imágenes en varios estilos artísticos aleatoriamente.
Estilos: Guarda segmentos de indicaciones para una aplicación rápida a través de selecciones desplegables.
Variaciones: Produce versiones ligeramente diferentes de la misma imagen.
Y mucho más...

Cómo usar la interfaz web

A continuación, se presentan instrucciones paso a paso para configurar la interfaz web de Stable Diffusion en tu máquina local:

Windows

Instala Python 3.10.6, asegurándote de marcar "Agregar Python al PATH" durante la instalación.
Instala git.
Clona el repositorio stable-diffusion-webui ejecutando git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git.
Coloca model.ckpt en el directorio de modelos (consulta las dependencias para obtener detalles sobre dónde encontrarlo).
(Opcional) Coloca GFPGANv1.4.pth en el directorio base, junto a webui.py (detalles en las dependencias).
Ejecuta webui-user.bat desde el Explorador de Windows como un usuario normal, no administrador.

Linux

Instala las dependencias necesarias ingresando lo siguiente: sudo apt install python3 python3-pip git
Para clonar la interfaz web en tu directorio personal, ejecuta: git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

Apple Silicon

Instrucciones específicas para Apple Silicon se pueden encontrar aquí.

Consejos para indicaciones efectivas de Stable Diffusion

Para aprovechar al máximo tus indicaciones en Stable Diffusion, consulta nuestra detallada guía de indicaciones de Stable Diffusion.

Además, si estás interesado en desarrollar tu propia herramienta basada en Stable Diffusion, considera unirte a nuestro Hackathon de IA Stable Diffusion para colaboración e innovación!