Les modèles pour Stable Diffusion

.1) Les modèles de base (checkpoints)

Un modèle de base est un gros fichiers d'environ 6 Go, définissant un réseau de neurones, qui a été entrainé par Stable Diffusion à partir d’un très très grand nombre d’images avec chacune leur description textuelle, formant la base de la capacité de création d’images. Les images générées par un tel modèle et les mots clefs qu’il peut reconnaitre, dépendent donc des images et textes qui ont été utilisés dans la phase d'apprentissage du modèle.

Il existe principalement 5 modèles de base : SD 1.4, SD 1.5, SD 2.0, SD 2.1, SDXL 1.0

Modèle	Site de téléchargement	Taille image recommendée	Date de sortie
SD 1.4	https://huggingface.co/CompVis/stable-diffusion-v1-4	512×512 pixels	Aout 2022
SD 1.5	https://huggingface.co/runwayml/stable-diffusion-v1-5	512×512 pixels	Octobre 2022
SD 2.0	https://huggingface.co/stabilityai/stable-diffusion-2	718×718 pixels	Novembre 2022
SD 2.1	https://huggingface.co/stabilityai/stable-diffusion-2-1	718×718 pixels	Décembre 2022
SDXL 0.9 base	https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-0.9	1024×1024 pixels	Juin 2023
SDXL 1.0 base	https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0	1024×1024 pixels	Juillet 2024
SDXL 1.0 refiner	https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0	1024×1024 pixels	Juillet 2024

Le modèle SDXL de génération d'image par intélligence artificielle le plus récent est capable de générer des photos très réalistes et très détaillées, intégrant des écritures.

Présentation du modèle SDXL et téléchargement : https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

Guide SDXL : https://www.stablediffusion.blog/stable-diffusion-xl

2) Modèles fine-tunés

Le fine-tuning prend un modèle déjà entraîné sur un large ensemble de données, et l'entraîne un peu plus sur un ensemble de données spécifiques. Un modèle fine-tuné sera ainsi orienté vers la génération d'images similaires à celles de son entrainement, tout en conservant la polyvalence du modèle d'origine. Il y a 4 principales méthodes de fine-tuning, produisant ainsi 4 type de modèles, les checkpoints, les dreambooth, les embedding, les Lora.

Checkpoint. On entraîne un modèle de base avec un ensemble de données supplémentaire qui vous intéresse. Par exemple, vous pouvez entraîner Stable Diffusion v1.5 avec un ensemble de données supplémentaire de voitures vintage pour biaiser l'esthétique des voitures vers le sous-genre. Cet entrainement génère un nouveau modèle sous la forme d’un fichier checkpoint.

Dreambooth est une technique développée à l'origine par Google qui permet d'injecter des sujets personnalisés dans les modèles texte-image. Il fonctionne avec aussi peu que 3 à 5 images personnalisées. Cette méthode a été popularisé très rapidement car c’est elle qui a permit la création des premiers services permettant de créer des avatars personnalisés avec l’IA : Vous pouvez prendre quelques photos de vous-même et utiliser Dreambooth pour vous insérer dans le modèle. Son principal inconvenient est qu’en ajoutant de nouvelles données au modèle existant, le fichier checkpoint qui en résulte peut devenir très lourd (5Go ou plus).

Embedding. L'objectif est similaire à Dreambooth : injecter un sujet personnalisé dans le modèle avec seulement quelques exemples pour lequel on crée un nouveau mot-clé unique. Avec cette méthode, seul la partie textuelle du modèle est fine-tunée, tout en conservant le reste du modèle inchangé. En d’autres termes, il s'agit d'apprendre au modèle la signification d’un nouveau mot, sans modifier les concepts visuels qu’il connait déjà. Son gros avantages est qu’il génères des fichiers complémentaires au modéle lui-même. Ces fichiers sont beaucoup plus léger à échanger et peuvent, parfois, fonctionner avec d’autres modèles que celui de départ.

LoRA (pour Low-Rank Adaptation) désigne une technique mathématique utilisée pour réduire le nombre de paramètres qui doivent être entraînés lors du fine-tuning des modèles. Elle fonctionne en créant une différence de modèle au lieu de sauvegarder le modèle entier. Les fichiers LoRA sont donc encore plus petits et faciles à échanger que les embedding.

3) Checkpoint

Il existe deux catégorie de checkpoints, ceux entrainés (checkpoint trained) et ceux fusionnés (checkpoint merge) :

checkpoint trained. Ce sont des modèles de base qui ont été entrainé avec de nouvelles images.

checkpoint merge. Ce sont des fusions de plusieurs checkpoints trained.

Civitai.com est dédié à Stable Diffusion on y trouve des milliers de modèles téléchargeables gratuitement. Vous sélectionner dans le filtre, le modèle de base, SDXL 1.0, et le type de modèle checkpoints trained ou checkpoints merge et vous pourrez télécharger desmilliers de modèles de ce type.

Comparaison de 9 modèles

4) Comparaison de 20 modèles checkpoints trained (basés sur SDXL 1.0)

On utilise une même configuration :

Échelle CFG : 7
Étapes : 20
Échantillonneur : DPM++ 2M Karras
Taille : 1024×1024
Graine : 4

On utilise un même prompt (comprenant 15 prompts à la ligne) :

1	Portrait féminin	beautiful lady, (freckles), big smile, blue eyes, short hair, dark makeup, hyperdetailed photography, soft light, head and shoulders portrait, cover
		belle dame, (taches de rousseur), grand sourire, yeux bleus, cheveux courts, maquillage foncé, photographie hyperdétaillée, lumière douce, portrait tête et épaules, couverture
2	Portrait masculin	analog photo, closeup portrait photo of 28 y.o asian man, natural skin, looks at viewer, city street, (cinematic shot, film grain:1.1)
		photo analogique, photo portrait en gros plan d'un homme asiatique de 28 ans, peau naturelle, regarde le spectateur, rue de la ville, (prise de vue cinématographique, grain du film:1.1)
3	Cadre intérieur	photograph close up portrait of happy woman at birthday party, cake, people in background, cinematic 4k epic detailed 4k epic detailed photograph shot on kodak detailed bokeh cinematic hbo dark moody
		photographier le portrait en gros plan d'une femme heureuse à la fête d'anniversaire, gâteau, personnes en arrière-plan, cinématique 4k épique détaillée 4k épique photographie détaillée prise sur kodak bokeh détaillé cinématique hbo sombre de mauvaise humeur
4	Cadre extérieur	Colorful ink cascaded the canvas, forming cat face. photo, studio lighting, sony a7, 35mm, hyperrealistic, big depth of field, concept art, colors, hyperdetailed, hyperrealistic, (big depth of field), (moody lighting), (ambient light), ((cinematic))
		De l'encre colorée coulait sur la toile, formant une tête de chat. photo, éclairage de studio, sony a7, 35 mm, hyperréaliste, grande profondeur de champ, concept art, couleurs, hyperdétaillé, hyperréaliste, (grande profondeur de champ), (éclairage d'ambiance), (lumière ambiante), ((cinématique))
5	Animal	luxury exotic sports car night photography casino driveway 200mm zoom lens f/1.4 (intricate details) (8k) (HDR) (analog film) (canon d5) (cinematic lighting) (sharp focus)
		voiture de sport exotique de luxe photographie de nuit allée de casino objectif zoom 200 mm f/1.4 (détails complexes) (8k) (HDR) (film analogique) (canon d5) (éclairage cinématographique) (mise au point nette)
6	Véhicule	a photo of Felted nike high sneakers, advertising photography, RAW, Lightroom, solid color background, high detailed
		une photo de baskets hautes nike feutrées, photographie publicitaire, RAW, Lightroom, fond de couleur unie, très détaillé
7	Produit	award winning interior photo, photograph, ultra photorealistic, photorealism, film still of inside a modern white spacious (kitchen in a smooth stone cave:1.25), smooth shading, desert, daylight, bright colors, hyper realistic, modern, surreal, lights, minimalistic studio architecture, behance, halation, bloom, dramatic atmosphere, rule of thirds, 8k uhd, dslr, high quality, film grain, Fuji Superia X-TRA 400
		photo d'intérieur primée, photographie, ultra photoréaliste, photoréalisme, film fixe de l'intérieur d'un spacieux blanc moderne (cuisine dans une grotte en pierre lisse:1.25), ombrages doux, désert, lumière du jour, couleurs vives, hyper réaliste, moderne, surréaliste, lumières, architecture de studio minimaliste, behance, halation, bloom, atmosphère dramatique, règle des tiers, 8k uhd, dslr, haute qualité, grain de film, Fuji Superia X-TRA 400
8	Architecture	mountain climber hiking up a mountain, snowy, cold, foggy and misty, overcast day, raytracing, detailed, rocks and ice
		alpiniste montant une montagne, neigeux, froid, brumeux et brumeux, jour couvert, lancer de rayons, détaillé, rochers et glace
9	Nature	waterfall, green vegetation, ultra, 4k, cinematic look, soothing tones, insane details, intricate details, hyperdetailed, low contrast, soft cinematic light, dim colors, exposure blend, hdr, faded, slate gray atmosphere
		cascade, végétation verte, ultra, 4k, look cinématographique, tons apaisants, détails insensés, détails complexes, hyperdétaillé, faible contraste, lumière cinématographique douce, couleurs tamisées, mélange d'exposition, hdr, délavé, atmosphère gris ardoise
10	Créature fantastique	Land whale, giant monster, carnivorous, covered in moss, magical green forest, Multiple light sources, dynamic pose, dynamic view, fantasy, shadow, magic, gradient colors, high key, dungeon and dragons style, magic the gathering style
		Baleine terrestre, monstre géant, carnivore, recouvert de mousse, forêt verte magique, sources de lumière multiples, pose dynamique, vue dynamique, fantaisie, ombre, magie, dégradé de couleurs, high key, style donjon et dragons, magie le style de rassemblement
11	Personnage fantastique	hyperrealistic glamour portrait of a goblin, freckles, skin pores, pores, velus hair, macro, extreme details, looking at viewer
		portrait glamour hyper réaliste d'un gobelin, taches de rousseur, pores de la peau, pores, cheveux vellus, macro, détails extrêmes, regardant le spectateur
12	Femme animée	anime, realistic, sketch, 1girl, lip, Sweater, order, Blue gradient background, Neon hair, Textured crop, Canadian, (masterpiece,best quality,niji style)
		anime, réaliste, croquis, 1 fille, lèvre, pull, commande, fond dégradé bleu, cheveux néon, culture texturée, canadien, (chef-d'œuvre, meilleure qualité, style niji)
13	Homme animé	Anime, Saitama, one punch man, detailed anime, (saitama, serious face), determined saitama, ultra detailed, anime style, storm and rain, action scene, rage, detailed, rage face, dynamic pose, close up
		Anime, Saitama, one punch man, anime détaillé, (saitama, visage sérieux), saitama déterminé, ultra détaillé, style anime, tempête et pluie, scène d'action, rage, détaillé, visage rage, pose dynamique, gros plan
14	Balises Booru	1girl, green hair, school uniform, tower
		1fille, cheveux verts, uniforme scolaire, tour
15	Bande dessinée	fire superhero, using superpower, dynamic pose, full color, art by Greg Capullo
		super-héros du feu, utilisant le super pouvoir, pose dynamique, couleur, art de Greg Capulloanime, réaliste, croquis, 1 fille, lèvre, pull, commande, fond dégradé bleu, cheveux néon, culture texturée, canadien, (chef-d'œuvre, meilleure qualité, style niji)

5) Quelques checkpoint merge

blue_pencil-XL

DynaVision XL

6) LoRA

ClassipeintXL

Les LoRA sont de petits modificateurs de modèles qui permettent d'apporter des variations intéressantes à vos créations tout en économisant de l'espace disque.

L’article de recherche à l’origine de la tehcnique des LoRA :
LoRA: Low-Rank Adaptation of Large Language Models (2021)

Une bonne présentation de comment le concept LoRA est appliqué dans Stable Diffusion :
Using LoRA for Efficient Stable Diffusion Fine-Tuning (Hugging Face blog)

Un guide en anglais sur les LoRA qui explique comment en créer soi-même :
Stable Diffusion LoRA models: a complete guide

Autre ressources :

Site de générateur AI-text-to-image :	https://www.seaart.ai/fr
Site de générateur AI-text-to-image :	https://civitai.com/
PERCHANCE.ORG Site de générateur AI-text-to-image gratuit :	https://perchance.org/ai-text-to-image-generator

7) ---- Easy Diffusion ----

Qu'est-ce qu'Easy Diffusion ? Easy Diffusion est une distribution de la diffusion stable, le principal logiciel d'IA texte-to-image libre.

Installation et démarrage : https://easydiffusion.github.io/. Une fois installé, pour utiliser le logiciel, allez sur l'interface web local : http://localhost:9000/. Le serveur redémarre avec la commande ./start.sh dans le dossier d'installation.

Guide d'utilisation de SDXL, ControlNet, LoRA etc. avec Easy Diffusion : https://github.com/easydiffusion/easydiffusion/wiki

Sujets spécifiques :

SDXL : https://github.com/easydiffusion/easydiffusion/wiki/SDXL
ControlNet : https://github.com/easydiffusion/easydiffusion/wiki/ControlNet
Multiple LoRA files : https://github.com/easydiffusion/easydiffusion/wiki/LoRA
Prompt Syntax (weights, emphasis etc) : https://github.com/easydiffusion/easydiffusion/wiki/Prompt-Syntax
Embeddings : https://github.com/easydiffusion/easydiffusion/wiki/Embeddings
xFormers : https://github.com/easydiffusion/easydiffusion/wiki/xFormers

Conseil :

Vous pouvez lancer plusieurs jobs à la suite, ils se metteront un file d'attente.
Vous pouvez Mettre un prompt par ligne, le travail sera répété pour chaque lignes.

Paramètres : Taille 512×768 pour modele SD et 1024×1024 pour model SDXL
Étapes d'inférence (inférene steps) 30 à 40 suffises (turbo 5 à 8)
Échelle de guidage Guidance Scale 7.5 (turbo 1 à 5)
Modèle SDXL modèle de base : https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0.safetensors
et L'AEV correspondant : https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0_0.9vae.safetensors
Une fois l'image créée, vous pouvez utiliser "Face Correction" ou "Upscaling" pour améliorer l'image, puis sur "Use as input" pour l'utiliser comme image d'entrée.
Vous pouvez utiliser une image d'entrée au même dimension.

Les prompts

Les prompts doivent être en anglais. Les mots peuvent être renforcé en les suffixant par un + (cela multiplie leur influence par 1.1) et par un - (cela multiplie leur influence par 0.9. Les parenthèses peuvent regrouper ce facteur multiplicatif. Exemple : a man (happy tired)++

Mélanger les concepts, exemple : ("a cat", "a dog").blend(0.25, 0.75)

Caractère d'échappement \(...\) et \"...\" pour redonner le sens intiale des parenthèses et guillemets.

8) ---- Fooocus sur Linux ----

Si vous avez une carte video NVIDIA vous pourrait utiliser Foocus comme suit :

Installez Miniconda comme suit :

mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm -rf ~/miniconda3/miniconda.sh

Après l'installation, pour initialiser :

~/miniconda3/bin/conda init bash
~/miniconda3/bin/conda init zsh

Installer Fooocus sur Linux :

git clone https://github.com/lllyasviel/Fooocus.git
cd Fooocus
conda env create -f environment.yaml
conda activate fooocus
pip install -r requirements_versions.txt

Pour lancer Fooocus :

python entry_with_update.py