Les modèles pour Stable Diffusion

 

1) Les modèles de base (checkpoints)

Un modèle de base est un gros fichiers d'environ 6 Go, définissant un réseau de neurones, qui a été entrainé par Stable Diffusion à partir d’un très très grand nombre d’images avec chacune leur description textuelle, formant la base de la capacité de création d’images. Les images générées par un tel modèle et les mots clefs qu’il peut reconnaitre, dépendent donc des images et textes qui ont été utilisés dans la phase d'apprentissage du modèle.

Il existe principalement 5 modèles de base : SD 1.4, SD 1.5, SD 2.0, SD 2.1, SDXL 1.0

Modèle
Site de téléchargement
Taille image
recommendée
Date de sortie
SD 1.4 https://huggingface.co/CompVis/stable-diffusion-v1-4 512×512 pixels Aout 2022
SD 1.5 https://huggingface.co/runwayml/stable-diffusion-v1-5 512×512 pixels Octobre 2022
SD 2.0 https://huggingface.co/stabilityai/stable-diffusion-2 718×718 pixels Novembre 2022
SD 2.1 https://huggingface.co/stabilityai/stable-diffusion-2-1 718×718 pixels Décembre 2022
SDXL 0.9 base https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-0.9 1024×1024 pixels Juin 2023
SDXL 1.0 base https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 1024×1024 pixels Juillet 2024
SDXL 1.0 refiner https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0

Le modèle SDXL de génération d'image par intélligence artificielle le plus récent est capable de générer des photos très réalistes et très détaillées, intégrant des écritures.

Présentation du modèle SDXL et téléchargement : https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

Guide SDXL : https://www.stablediffusion.blog/stable-diffusion-xl

2) Modèles fine-tunés

Le fine-tuning prend un modèle déjà entraîné sur un large ensemble de données, et l'entraîne un peu plus sur un ensemble de données spécifiques. Un modèle fine-tuné sera ainsi orienté vers la génération d'images similaires à celles de son entrainement, tout en conservant la polyvalence du modèle d'origine. Il y a 4 principales méthodes de fine-tuning, produisant ainsi 4 type de modèles, les checkpoints, les dreambooth, les embedding, les Lora.

Checkpoint. On entraîne un modèle de base avec un ensemble de données supplémentaire qui vous intéresse. Par exemple, vous pouvez entraîner Stable Diffusion v1.5 avec un ensemble de données supplémentaire de voitures vintage pour biaiser l'esthétique des voitures vers le sous-genre. Cet entrainement génère un nouveau modèle sous la forme d’un fichier checkpoint.

Dreambooth est une technique développée à l'origine par Google qui permet d'injecter des sujets personnalisés dans les modèles texte-image. Il fonctionne avec aussi peu que 3 à 5 images personnalisées. Cette méthode a été popularisé très rapidement car c’est elle qui a permit la création des premiers services permettant de créer des avatars personnalisés avec l’IA : Vous pouvez prendre quelques photos de vous-même et utiliser Dreambooth pour vous insérer dans le modèle. Son principal inconvenient est qu’en ajoutant de nouvelles données au modèle existant, le fichier checkpoint qui en résulte peut devenir très lourd (5Go ou plus).

Embedding. L'objectif est similaire à Dreambooth : injecter un sujet personnalisé dans le modèle avec seulement quelques exemples pour lequel on crée un nouveau mot-clé unique. Avec cette méthode, seul la partie textuelle du modèle est fine-tunée, tout en conservant le reste du modèle inchangé. En d’autres termes, il s'agit d'apprendre au modèle la signification d’un nouveau mot, sans modifier les concepts visuels qu’il connait déjà. Son gros avantages est qu’il génères des fichiers complémentaires au modéle lui-même. Ces fichiers sont beaucoup plus léger à échanger et peuvent, parfois, fonctionner avec d’autres modèles que celui de départ.

LoRA (pour Low-Rank Adaptation) désigne une technique mathématique utilisée pour réduire le nombre de paramètres qui doivent être entraînés lors du fine-tuning des modèles. Elle fonctionne en créant une différence de modèle au lieu de sauvegarder le modèle entier. Les fichiers LoRA sont donc encore plus petits et faciles à échanger que les embedding.

3) Checkpoint

Il existe deux catégorie de checkpoints, ceux entrainés (checkpoint trained) et ceux fusionnés (checkpoint merge) :

checkpoint trained. Ce sont des modèles de base qui ont été entrainé avec de nouvelles images.

checkpoint merge. Ce sont des fusions de plusieurs checkpoints trained.

Civitai.com est dédié à Stable Diffusion on y trouve des milliers de modèles téléchargeables gratuitement. Vous sélectionner dans le filtre, le modèle de base, SDXL 1.0, et le type de modèle checkpoints trained ou checkpoints merge et vous pourrez télécharger desmilliers de modèles de ce type.

Comparaison de 9 modèles

4) Comparaison de 20 modèles checkpoints trained (basés sur SDXL 1.0)

On utilise une même configuration :

Échelle CFG : 7
Étapes : 20
Échantillonneur : DPM++ 2M Karras
Taille : 1024×1024
Graine : 4

On utilise un même prompt (comprenant 15 prompts à la ligne) :

1
Portrait
féminin
beautiful lady, (freckles), big smile, blue eyes, short hair, dark makeup, hyperdetailed photography, soft light, head and shoulders portrait, cover belle dame, (taches de rousseur), grand sourire, yeux bleus, cheveux courts, maquillage foncé, photographie hyperdétaillée, lumière douce, portrait tête et épaules, couverture
2
Portrait
masculin
analog photo, closeup portrait photo of 28 y.o asian man, natural skin, looks at viewer, city street, (cinematic shot, film grain:1.1) photo analogique, photo portrait en gros plan d'un homme asiatique de 28 ans, peau naturelle, regarde le spectateur, rue de la ville, (prise de vue cinématographique, grain du film:1.1)
3
Cadre
intérieur
photograph close up portrait of happy woman at birthday party, cake, people in background, cinematic 4k epic detailed 4k epic detailed photograph shot on kodak detailed bokeh cinematic hbo dark moody photographier le portrait en gros plan d'une femme heureuse à la fête d'anniversaire, gâteau, personnes en arrière-plan, cinématique 4k épique détaillée 4k épique photographie détaillée prise sur kodak bokeh détaillé cinématique hbo sombre de mauvaise humeur
4
Cadre
extérieur
Colorful ink cascaded the canvas, forming cat face. photo, studio lighting, sony a7, 35mm, hyperrealistic, big depth of field, concept art, colors, hyperdetailed, hyperrealistic, (big depth of field), (moody lighting), (ambient light), ((cinematic)) De l'encre colorée coulait sur la toile, formant une tête de chat. photo, éclairage de studio, sony a7, 35 mm, hyperréaliste, grande profondeur de champ, concept art, couleurs, hyperdétaillé, hyperréaliste, (grande profondeur de champ), (éclairage d'ambiance), (lumière ambiante), ((cinématique))
5
Animal
luxury exotic sports car night photography casino driveway 200mm zoom lens f/1.4 (intricate details) (8k) (HDR) (analog film) (canon d5) (cinematic lighting) (sharp focus) voiture de sport exotique de luxe photographie de nuit allée de casino objectif zoom 200 mm f/1.4 (détails complexes) (8k) (HDR) (film analogique) (canon d5) (éclairage cinématographique) (mise au point nette)
6
Véhicule
a photo of Felted nike high sneakers, advertising photography, RAW, Lightroom, solid color background, high detailed une photo de baskets hautes nike feutrées, photographie publicitaire, RAW, Lightroom, fond de couleur unie, très détaillé
7
Produit
award winning interior photo, photograph, ultra photorealistic, photorealism, film still of inside a modern white spacious (kitchen in a smooth stone cave:1.25), smooth shading, desert, daylight, bright colors, hyper realistic, modern, surreal, lights, minimalistic studio architecture, behance, halation, bloom, dramatic atmosphere, rule of thirds, 8k uhd, dslr, high quality, film grain, Fuji Superia X-TRA 400 photo d'intérieur primée, photographie, ultra photoréaliste, photoréalisme, film fixe de l'intérieur d'un spacieux blanc moderne (cuisine dans une grotte en pierre lisse:1.25), ombrages doux, désert, lumière du jour, couleurs vives, hyper réaliste, moderne, surréaliste, lumières, architecture de studio minimaliste, behance, halation, bloom, atmosphère dramatique, règle des tiers, 8k uhd, dslr, haute qualité, grain de film, Fuji Superia X-TRA 400
8
Architecture
mountain climber hiking up a mountain, snowy, cold, foggy and misty, overcast day, raytracing, detailed, rocks and ice alpiniste montant une montagne, neigeux, froid, brumeux et brumeux, jour couvert, lancer de rayons, détaillé, rochers et glace
9
Nature
waterfall, green vegetation, ultra, 4k, cinematic look, soothing tones, insane details, intricate details, hyperdetailed, low contrast, soft cinematic light, dim colors, exposure blend, hdr, faded, slate gray atmosphere cascade, végétation verte, ultra, 4k, look cinématographique, tons apaisants, détails insensés, détails complexes, hyperdétaillé, faible contraste, lumière cinématographique douce, couleurs tamisées, mélange d'exposition, hdr, délavé, atmosphère gris ardoise
10
Créature
fantastique
Land whale, giant monster, carnivorous, covered in moss, magical green forest, Multiple light sources, dynamic pose, dynamic view, fantasy, shadow, magic, gradient colors, high key, dungeon and dragons style, magic the gathering style Baleine terrestre, monstre géant, carnivore, recouvert de mousse, forêt verte magique, sources de lumière multiples, pose dynamique, vue dynamique, fantaisie, ombre, magie, dégradé de couleurs, high key, style donjon et dragons, magie le style de rassemblement
11
Personnage
fantastique
hyperrealistic glamour portrait of a goblin, freckles, skin pores, pores, velus hair, macro, extreme details, looking at viewer portrait glamour hyper réaliste d'un gobelin, taches de rousseur, pores de la peau, pores, cheveux vellus, macro, détails extrêmes, regardant le spectateur
12
Femme
animée
anime, realistic, sketch, 1girl, lip, Sweater, order, Blue gradient background, Neon hair, Textured crop, Canadian, (masterpiece,best quality,niji style) anime, réaliste, croquis, 1 fille, lèvre, pull, commande, fond dégradé bleu, cheveux néon, culture texturée, canadien, (chef-d'œuvre, meilleure qualité, style niji)
13
Homme
animé
Anime, Saitama, one punch man, detailed anime, (saitama, serious face), determined saitama, ultra detailed, anime style, storm and rain, action scene, rage, detailed, rage face, dynamic pose, close up Anime, Saitama, one punch man, anime détaillé, (saitama, visage sérieux), saitama déterminé, ultra détaillé, style anime, tempête et pluie, scène d'action, rage, détaillé, visage rage, pose dynamique, gros plan
14
Balises
Booru
1girl, green hair, school uniform, tower 1fille, cheveux verts, uniforme scolaire, tour
15
Bande
dessinée
fire superhero, using superpower, dynamic pose, full color, art by Greg Capullo super-héros du feu, utilisant le super pouvoir, pose dynamique, couleur, art de Greg Capullo
Le résultat du teste de comparaison SDXL, BriXL, Copax TimeLessXL V6, CounterfeitXL, FormulaXL, Hassaku XL alpha v0.4, Juggernaut XL, [Lah] Mystérieux, NightVision XL - Photoréaliste, Liberté réaliste, Photo réaliste. Pour télécharger ces modèles cliquez sur les liens qui vous amèneront sur la page Civitai.com dévolue à leur téléchargement.


Le résultat du teste de comparaison SDXL, SDVN7-NijiStyleXL, SDXL_Niji_Special Edition, SDXL Unstable Diffusers V7 (Remarque : le lien ci-dessus concernait la V8), Anime SDXL Yamer, SDXL Yamer's Cartoon Arcadia V1, Le réalisme de SDXL Yamer !, SDXL réaliste de Yamer, Starlight XL 星光 animé, XXMix_9realisticSDXL, ZavyChromaXL

 

Source : https://www.reddit.com/r/StableDiffusion/comments/176iijv/comparison_of_20_popular_sdxl_models/?tl=fr

5) Quelques checkpoint merge

blue_pencil-XL

DynaVision XL


6) LoRA

ClassipeintXL

Les LoRA sont de petits modificateurs de modèles qui permettent d'apporter des variations intéressantes à vos créations tout en économisant de l'espace disque.

L’article de recherche à l’origine de la tehcnique des LoRA :
LoRA: Low-Rank Adaptation of Large Language Models (2021)

Une bonne présentation de comment le concept LoRA est appliqué dans Stable Diffusion :
Using LoRA for Efficient Stable Diffusion Fine-Tuning (Hugging Face blog)

Un guide en anglais sur les LoRA qui explique comment en créer soi-même :
Stable Diffusion LoRA models: a complete guide

Autre ressources :

Site de générateur AI-text-to-image : https://www.seaart.ai/fr
Site de générateur AI-text-to-image : https://civitai.com/
PERCHANCE.ORG
Site de générateur AI-text-to-image
gratuit et non censuré :
https://perchance.org/ai-text-to-image-generator

 

7) ---- Easy Diffusion ----

Qu'est-ce qu'Easy Diffusion ? Easy Diffusion est une distribution de la diffusion stable, le principal logiciel d'IA texte-to-image libre.

Installation et démarrage : https://easydiffusion.github.io/. Une fois installé, pour utiliser le logiciel, allez sur l'interface web local : http://localhost:9000/. Le serveur redémarre avec la commande ./start.sh dans le dossier d'installation.

Guide d'utilisation de SDXL, ControlNet, LoRA etc. avec Easy Diffusion : https://github.com/easydiffusion/easydiffusion/wiki

Sujets spécifiques :

SDXL : https://github.com/easydiffusion/easydiffusion/wiki/SDXL
ControlNet : https://github.com/easydiffusion/easydiffusion/wiki/ControlNet
Multiple LoRA files : https://github.com/easydiffusion/easydiffusion/wiki/LoRA
Prompt Syntax (weights, emphasis etc) : https://github.com/easydiffusion/easydiffusion/wiki/Prompt-Syntax
Embeddings : https://github.com/easydiffusion/easydiffusion/wiki/Embeddings
xFormers : https://github.com/easydiffusion/easydiffusion/wiki/xFormers

Conseil :

Vous pouvez lancer plusieurs jobs à la suite, ils se metteront un file d'attente.
Vous pouvez Mettre un prompt par ligne, le travail sera répété pour chaque lignes.

Paramètres : Taille 512×768 pour modele SD et 1024×1024 pour model SDXL
Étapes d'inférence (inférene steps) 30 à 40 suffises (turbo 5 à 8)
Échelle de guidage Guidance Scale 7.5 (turbo 1 à 5)
Modèle SDXL modèle de base : https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0.safetensors
et L'AEV correspondant : https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0_0.9vae.safetensors
Une fois l'image créée, vous pouvez utiliser "Face Correction" ou "Upscaling" pour améliorer l'image, puis sur "Use as input" pour l'utiliser comme image d'entrée.
Vous pouvez utiliser une image d'entrée au même dimension.

Les prompts

Les prompts doivent être en anglais. Les mots peuvent être renforcé en les suffixant par un + (cela multiplie leur influence par 1.1) et par un - (cela multiplie leur influence par 0.9. Les parenthèses peuvent regrouper ce facteur multiplicatif. Exemple : a man (happy tired)++

Mélanger les concepts, exemple : ("a cat", "a dog").blend(0.25, 0.75)

Caractère d'échappement \(...\) et \"...\" pour redonner le sens intiale des parenthèses et guillemets.

 

8) ---- Fooocus sur Linux ----

Si vous avez une carte video NVIDIA vous pourrait utiliser Foocus comme suit :

Installez Miniconda comme suit :

mkdir -p ~/miniconda3
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh
bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3
rm -rf ~/miniconda3/miniconda.sh

Après l'installation, pour initialiser :

~/miniconda3/bin/conda init bash
~/miniconda3/bin/conda init zsh

Installer Fooocus sur Linux :

git clone https://github.com/lllyasviel/Fooocus.git
cd Fooocus
conda env create -f environment.yaml
conda activate fooocus
pip install -r requirements_versions.txt 

Pour lancer Fooocus :

python entry_with_update.py