Stable Diffusion | ||
---|---|---|
Información general | ||
Tipo de programa | text-to-image model | |
Autor | LMU Munich and Runway | |
Desarrollador | https://github.com/CompVis/stable-diffusion | |
Modelo de desarrollo | Código abierto | |
Lanzamiento inicial | 22 de agosto de 2022 | |
Licencia | Licencia Creative ML OpenRAIL-M | |
Idiomas | Inglés | |
Información técnica | ||
Programado en | Python | |
Versiones | ||
Última versión estable | SDXL 1.026 de julio de 2023 | |
Enlaces | ||
Stable Diffusion es un modelo de aprendizaje automático desarrollado por Runway y LMU Múnich[1] para generar imágenes digitales de alta calidad a partir de descripciones en lenguaje natural o estímulos (prompts, en inglés). El modelo se puede usar para diferentes tareas, como la generación de traducciones de imagen a imagen guiadas por mensajes de texto y la mejora de imágenes.
A diferencia de modelos de la competencia como DALL-E, Stable Diffusion es de código abierto[2] y no limita artificialmente las imágenes que produce.[3] Los críticos han expresado su preocupación por la ética de la IA, afirmando que el modelo se puede utilizar para crear deepfakes.[4] Puede ejecutarse en el hardware del usuario equipado con una tarjeta gráfica (GPU), es completamente gratis, se puede acceder a él en línea y fue elogiado por PC World como «la próxima aplicación revolucionaria para su PC».[5] Desde su lanzamiento inicial, más de 200.000 personas han descargado el código.[6] El modelo original fue liberado a través de la colaboración de las comunidades CompVis LMU, Runway, y Stability AI, con el apoyo de EleutherAI y LAION.
Arquitectura
Stable Diffusion utiliza una variante del modelo de difusión (DM), denominada modelo de difusión latente (LDM).[7] Introducidos en 2015, los modelos de difusión se entrenan con el objetivo de eliminar aplicaciones sucesivas de ruido gaussiano en las imágenes de entrenamiento, que pueden considerarse una secuencia de autocodificadores de eliminación de ruido. Stable Diffusion consta de tres partes: el autocodificador variacional (VAE), U-Net y un codificador de texto opcional.[8] El codificador VAE comprime la imagen desde el espacio de píxeles a un espacio latente de dimensiones más pequeñas, capturando un significado semántico más fundamental de la imagen.[9] El ruido gaussiano se aplica iterativamente a la representación latente comprimida durante la difusión directa[8] El bloque U-Net, compuesto por una columna vertebral ResNet, elimina el ruido de la salida de la difusión directa hacia atrás para obtener la representación latente. Por último, el descodificador VAE genera la imagen final convirtiendo la representación de nuevo al espacio de píxeles[8]. El paso de eliminación de ruido puede condicionarse de forma flexible a una cadena de texto, una imagen y otras modalidades. Los datos de condicionamiento codificados se exponen a las U-Nets de eliminación de ruido mediante un mecanismo de atención cruzada.[8] Para condicionar el texto, se utiliza el codificador de texto fijo y preentrenado CLIP ViT-L/14 para transformar las indicaciones de texto a un espacio de incrustación[1]. Los investigadores señalan la mayor eficiencia computacional para el entrenamiento y la generación como una ventaja de los LDM.[10][11]
Datos de entrenamiento
Stable Diffusion se entrenó con pares de imágenes y subtítulos extraídos de la base de datos LAION-5B, un conjunto de datos de acceso público derivado de los datos de Common Crawl extraídos de la web, en el que se clasificaron 5.000 millones de pares imagen-texto en función del idioma, se filtraron en conjuntos de datos separados por resolución, se predijo la probabilidad de que contuvieran una marca de agua y se predijo la puntuación "estética" (por ejemplo, la calidad visual subjetiva).[12][13] El conjunto de datos fue creado por LAION, una organización alemana sin ánimo de lucro que recibe financiación de Stability AI.[12][13] El modelo Stable Diffusion se entrenó con tres subconjuntos de LAION-5B: laion2B-es, laion-high-resolution y laion-aesthetics v2 5+. Un análisis de terceros de los datos de entrenamiento del modelo identificó que de un subconjunto más pequeño de 12 millones de imágenes tomadas del conjunto de datos original más amplio utilizado, aproximadamente el 47 % del tamaño de la muestra de imágenes procedía de 100 dominios diferentes, de los cuales Pinterest ocupaba el 8,5 % del subconjunto, seguido de sitios web como WordPress, Blogspot, Flickr, DeviantArt y Wikimedia Commons.[14]
Procedimientos de entrenamiento
El modelo se entrenó inicialmente con los subconjuntos laion2B-es y laion-high-resolution, y las últimas rondas de entrenamiento se realizaron con LAION-Aesthetics v2 5+, un subconjunto de 600 millones de imágenes subtituladas a las que LAION-Aesthetics Predictor V2 predijo que los humanos darían, de media, una puntuación de al menos 5 sobre 10 cuando se les pidiera que valoraran cuánto les gustaban.[15][16] El subconjunto LAION-Aesthetics v2 5+ también excluía las imágenes de baja resolución y las imágenes que LAION-5B-WatermarkDetection identificaba como portadoras de una marca de agua con una probabilidad superior al 80 %.[12] En las rondas finales de entrenamiento se eliminó además un 10 % de condicionamiento de texto para mejorar la orientación de difusión sin clasificador.[17]
El modelo se entrenó utilizando 256 GPU Nvidia A100 en Amazon Web Services, lo que supuso un total de 150.000 horas de GPU, con un coste de 600.000 dólares.[18][19][20]
El código y pesos ('pretrained weights') del modelo de Stable Diffusion son de dominio público, y puede ejecutarse en la mayoría del hardware de consumo equipado con una GPU con al menos 8 GB de VRAM.
Versiones
Las versiones iniciales del modelo se entrenaron en un conjunto de datos que consta de imágenes de resolución 512 × 512, lo que significa que la calidad de las imágenes generadas se degrada notablemente cuando las especificaciones del usuario se desvían de su resolución "esperada" de 512 × 512.[21] El 20 de octubre de 2022 actualizaron a su versión 1.5 con algunas mejoras menores e incluyendo inpainting (hasta ese momento podía ser usado solo a través de software de terceros).[cita requerida]
La actualización de la versión 2.0,[22] liberada el 24 de noviembre, introdujo posteriormente la capacidad de generar imágenes de forma nativa con una resolución de 768×768.[23] Además, se introdujo la capacidad de utilizar estímulos negativos auxiliares y mapas de profundidad (depth maps), lo cual aumentó la versatilidad y capacidades del sistema. No obstante dicha actualización atrajo críticas[24][25] debido a que (sin el uso de prompts negativos) las figuras humanas aparecían deformes y la excesiva censura de los datos de entrenamiento.[26] El 7 de diciembre de 2022 ya habían publicado su versión 2.1[27] con algunas correcciones.
Limitaciones y controversias
Las comunidades detrás de Stable Diffusion no reclaman ningún derecho sobre las imágenes generadas y otorga libremente a los usuarios los derechos de uso de su modelo, siempre que el contenido de la imagen no sea ilegal o dañino para las personas. La libertad otorgada a los usuarios sobre el uso de imágenes ha causado controversia sobre la ética de la propiedad, ya que los modelos generativos se entrenan a partir de imágenes, algunas con derechos de autor, sin el consentimiento expreso del propietario.[28]
Las primeras versiones de Stable Diffusion es notablemente más permisiva en los tipos de contenido que los usuarios pueden generar que sus competidoras (imágenes violentas o sexualmente explícitas).[29] Al abordar las preocupaciones de que el modelo puede usarse con fines abusivos, el director ejecutivo de Stability AI, Emad Mostaque, explica que "[es] la responsabilidad de las personas en cuanto a si son éticos, morales y legales en la forma en que operan esta tecnología" y que poner las capacidades de Stable Diffusion en manos del público daría como resultado que la tecnología proporcione un beneficio mucho mayor, que las posibles consecuencias negativas.[30]
Además, dado que los estilos visuales y las composiciones no están sujetos a derechos de autor, a menudo se interpreta que no se debe considerar que los usuarios de Stable Diffusion que generan imágenes de obras de arte infringen los derechos de autor de obras visualmente similares.[cita requerida] Sin embargo, las personas representadas en las imágenes generadas pueden estar protegidas por derechos de personalidad si se usa su imagen, y la propiedad intelectual, como los logotipos de marcas reconocibles, aún permanecen protegidas por derechos de autor. No obstante, los artistas visuales han expresado su preocupación de que el uso generalizado de software de síntesis de imágenes como Stable Diffusion pueda finalmente llevar a los artistas humanos, junto con fotógrafos, modelos, directores de fotografía y actores, a perder gradualmente la viabilidad comercial frente a los competidores basados en IA.[29]
En enero de 2023, tres artistas: Sarah Andersen, Kelly McKernan y Karla Ortiz presentaron una infracción de derechos de autor contra Stability AI, Midjourney y DeviantArt, alegando que estos las empresas han infringido los derechos de millones de artistas al entrenar herramientas de inteligencia artificial en cinco mil millones de imágenes extraídas de la web sin el consentimiento de los artistas originales.[31]
Stability AI también fue demandada por Getty Images por usar sus imágenes en los datos de entrenamiento.[32] Actualmente existen denuncias similares de parte de cientos de artistas [cita requerida].
Véase también
Referencias
- ↑ «The research origins of Stable Diffusion | Runway Research». Runway (en inglés estadounidense). Consultado el 19 de marzo de 2023.
- ↑ «Stable Diffusion Public Release». Stability.Ai. Consultado el 31 de agosto de 2022.
- ↑ «Ready or not, mass video deepfakes are coming». The Washington Post. Consultado el 31 de agosto de 2022.
- ↑ «Deepfakes for all: Uncensored AI art model prompts ethics questions». TechCrunch. Consultado el 31 de agosto de 2022.
- ↑ «The new killer app: Creating AI art will absolutely crush your PC». PCWorld. Consultado el 31 de agosto de 2022.
- ↑ Roose, Kevin (21 de octubre de 2022). «A Coming-Out Party for Generative A.I., Silicon Valley’s New Craze». The New York Times. Consultado el 24 de octubre de 2022.
- ↑ Stable Diffusion, CompVis - Computer Vision and Learning LMU Munich, 6 de enero de 2023, consultado el 6 de enero de 2023.
- ↑ a b c d Alammar, Jay. «The Illustrated Stable Diffusion». jalammar.github.io. Consultado el 6 de enero de 2023.
- ↑ «High-Resolution Image Synthesis with Latent Diffusion Models». Computer Vision & Learning Group (en inglés estadounidense). Consultado el 6 de enero de 2023.
- ↑ «Stable Diffusion launch announcement». Stability AI (en inglés británico). Consultado el 6 de enero de 2023.
- ↑ Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). High-Resolution Image Synthesis with Latent Diffusion Models (PDF). International Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans, LA. pp. 10684–10695. arXiv:2112.10752.
- ↑ a b c Baio, Andy (30 de agosto de 2022). «Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator». Waxy.org (en inglés estadounidense). Consultado el 5 de enero de 2023.
- ↑ a b «This artist is dominating AI-generated art. And he’s not happy about it.». MIT Technology Review (en inglés). Consultado el 5 de enero de 2023.
- ↑ Ivanovs, Alex (8 de septiembre de 2022). «Stable Diffusion: Tutorials, Resources, and Tools». Stack Diary (en inglés estadounidense). Consultado el 5 de enero de 2023.
- ↑ Schuhmann, Christoph (3 de enero de 2023), CLIP+MLP Aesthetic Score Predictor, consultado el 5 de enero de 2023.
- ↑ «LAION-Aesthetics | LAION». laion.ai (en inglés). Consultado el 5 de enero de 2023.
- ↑ Ho, Jonathan; Salimans, Tim (25 de julio de 2022). «Classifier-Free Diffusion Guidance». arXiv:2207.12598 [cs]. Consultado el 5 de enero de 2023.
- ↑ «https://twitter.com/emostaque/status/1563870674111832066». Twitter. Consultado el 5 de enero de 2023.
- ↑ «CompVis/stable-diffusion-v1-4 · Hugging Face». huggingface.co. Consultado el 5 de enero de 2023.
- ↑ Wiggers, Kyle (12 de agosto de 2022). «A startup wants to democratize the tech behind DALL-E 2, consequences be damned». TechCrunch (en inglés estadounidense). Consultado el 5 de enero de 2023.
- ↑ «Stable Diffusion with 🧨 Diffusers». huggingface.co. Consultado el 31 de octubre de 2022.
- ↑ «Stable Diffusion 2.0 Release». Stability AI (en inglés británico). Consultado el 19 de marzo de 2023.
- ↑ «Stable Diffusion 2.0 Release». stability.ai. Archivado desde el original el 10 de diciembre de 2022.
- ↑ Akimbo333 (1 de diciembre de 2022). «Stable Diffusion 2.0 worse than 1.5?». r/StableDiffusion. Consultado el 19 de marzo de 2023.
- ↑ Stable Diffusion 2.0 WORST than 1.5! What Happened 2.0 vs 1.5, consultado el 19 de marzo de 2023.
- ↑ Whiddington, Richard (1 de diciembre de 2022). «A Top A.I. Art Generator's Latest Version Prohibits Mimicking Work by Other Artists. Users Are Calling It 'Censorship'». Artnet News (en inglés estadounidense). Consultado el 19 de marzo de 2023.
- ↑ «Stable Diffusion v2.1 and DreamStudio Updates 7-Dec 22». Stability AI (en inglés británico). Consultado el 19 de marzo de 2023.
- ↑ Cai, Kenrick. «Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion». Forbes (en inglés). Consultado el 19 de marzo de 2023.
- ↑ a b «This artist is dominating AI-generated art. And he’s not happy about it.». MIT Technology Review (en inglés). Consultado el 19 de marzo de 2023.
- ↑ Vincent, James (15 de septiembre de 2022). «Anyone can use this AI art generator — that’s the risk». The Verge (en inglés estadounidense). Consultado el 19 de marzo de 2023.
- ↑ James Vincent "AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit" The Verge, 16 January, 2023.
- ↑ Korn, Jennifer (17 de enero de 2023). «Getty Imágenes que demandan a los creadores de la popular herramienta de arte AI por supuestamente robar fotos». CNN (en inglés). Consultado el 22 de enero de 2023.