Les modèles pour Stable Diffusion.1) Les modèles de base (checkpoints)Un modèle de base est un gros fichiers d'environ 6 Go, définissant un réseau de neurones, qui a été entrainé par Stable Diffusion à partir d’un très très grand nombre d’images avec chacune leur description textuelle, formant la base de la capacité de création d’images. Les images générées par un tel modèle et les mots clefs qu’il peut reconnaitre, dépendent donc des images et textes qui ont été utilisés dans la phase d'apprentissage du modèle. Il existe principalement 5 modèles de base : SD 1.4, SD 1.5, SD 2.0, SD 2.1, SDXL 1.0
Le modèle SDXL de génération d'image par intélligence artificielle le plus récent est capable de générer des photos très réalistes et très détaillées, intégrant des écritures. Présentation du modèle SDXL et téléchargement : https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 Guide SDXL : https://www.stablediffusion.blog/stable-diffusion-xl 2) Modèles fine-tunésLe fine-tuning prend un modèle déjà entraîné sur un large ensemble de données, et l'entraîne un peu plus sur un ensemble de données spécifiques. Un modèle fine-tuné sera ainsi orienté vers la génération d'images similaires à celles de son entrainement, tout en conservant la polyvalence du modèle d'origine. Il y a 4 principales méthodes de fine-tuning, produisant ainsi 4 type de modèles, les checkpoints, les dreambooth, les embedding, les Lora. Checkpoint. On entraîne un modèle de base avec un ensemble de données supplémentaire qui vous intéresse. Par exemple, vous pouvez entraîner Stable Diffusion v1.5 avec un ensemble de données supplémentaire de voitures vintage pour biaiser l'esthétique des voitures vers le sous-genre. Cet entrainement génère un nouveau modèle sous la forme d’un fichier checkpoint. Dreambooth est une technique développée à l'origine par Google qui permet d'injecter des sujets personnalisés dans les modèles texte-image. Il fonctionne avec aussi peu que 3 à 5 images personnalisées. Cette méthode a été popularisé très rapidement car c’est elle qui a permit la création des premiers services permettant de créer des avatars personnalisés avec l’IA : Vous pouvez prendre quelques photos de vous-même et utiliser Dreambooth pour vous insérer dans le modèle. Son principal inconvenient est qu’en ajoutant de nouvelles données au modèle existant, le fichier checkpoint qui en résulte peut devenir très lourd (5Go ou plus). Embedding. L'objectif est similaire à Dreambooth : injecter un sujet personnalisé dans le modèle avec seulement quelques exemples pour lequel on crée un nouveau mot-clé unique. Avec cette méthode, seul la partie textuelle du modèle est fine-tunée, tout en conservant le reste du modèle inchangé. En d’autres termes, il s'agit d'apprendre au modèle la signification d’un nouveau mot, sans modifier les concepts visuels qu’il connait déjà. Son gros avantages est qu’il génères des fichiers complémentaires au modéle lui-même. Ces fichiers sont beaucoup plus léger à échanger et peuvent, parfois, fonctionner avec d’autres modèles que celui de départ. LoRA (pour Low-Rank Adaptation) désigne une technique mathématique utilisée pour réduire le nombre de paramètres qui doivent être entraînés lors du fine-tuning des modèles. Elle fonctionne en créant une différence de modèle au lieu de sauvegarder le modèle entier. Les fichiers LoRA sont donc encore plus petits et faciles à échanger que les embedding. 3) CheckpointIl existe deux catégorie de checkpoints, ceux entrainés (checkpoint trained) et ceux fusionnés (checkpoint merge) : checkpoint trained. Ce sont des modèles de base qui ont été entrainé avec de nouvelles images. checkpoint merge. Ce sont des fusions de plusieurs checkpoints trained. Civitai.com est dédié à Stable Diffusion on y trouve des milliers de modèles téléchargeables gratuitement. Vous sélectionner dans le filtre, le modèle de base, SDXL 1.0, et le type de modèle checkpoints trained ou checkpoints merge et vous pourrez télécharger desmilliers de modèles de ce type. 4) Comparaison de 20 modèles checkpoints trained (basés sur SDXL 1.0)On utilise une même configuration :
On utilise un même prompt (comprenant 15 prompts à la ligne) : |
1 |
Portrait féminin |
beautiful lady, (freckles), big smile, blue eyes, short hair, dark makeup, hyperdetailed photography, soft light, head and shoulders portrait, cover |
| belle dame, (taches de rousseur), grand sourire, yeux bleus, cheveux courts, maquillage foncé, photographie hyperdétaillée, lumière douce, portrait tête et épaules, couverture | ||
2 |
Portrait masculin |
analog photo, closeup portrait photo of 28 y.o asian man, natural skin, looks at viewer, city street, (cinematic shot, film grain:1.1) |
| photo analogique, photo portrait en gros plan d'un homme asiatique de 28 ans, peau naturelle, regarde le spectateur, rue de la ville, (prise de vue cinématographique, grain du film:1.1) | ||
3 |
Cadre intérieur |
photograph close up portrait of happy woman at birthday party, cake, people in background, cinematic 4k epic detailed 4k epic detailed photograph shot on kodak detailed bokeh cinematic hbo dark moody |
| photographier le portrait en gros plan d'une femme heureuse à la fête d'anniversaire, gâteau, personnes en arrière-plan, cinématique 4k épique détaillée 4k épique photographie détaillée prise sur kodak bokeh détaillé cinématique hbo sombre de mauvaise humeur | ||
4 |
Cadre extérieur |
Colorful ink cascaded the canvas, forming cat face. photo, studio lighting, sony a7, 35mm, hyperrealistic, big depth of field, concept art, colors, hyperdetailed, hyperrealistic, (big depth of field), (moody lighting), (ambient light), ((cinematic)) |
| De l'encre colorée coulait sur la toile, formant une tête de chat. photo, éclairage de studio, sony a7, 35 mm, hyperréaliste, grande profondeur de champ, concept art, couleurs, hyperdétaillé, hyperréaliste, (grande profondeur de champ), (éclairage d'ambiance), (lumière ambiante), ((cinématique)) | ||
5 |
Animal |
luxury exotic sports car night photography casino driveway 200mm zoom lens f/1.4 (intricate details) (8k) (HDR) (analog film) (canon d5) (cinematic lighting) (sharp focus) |
| voiture de sport exotique de luxe photographie de nuit allée de casino objectif zoom 200 mm f/1.4 (détails complexes) (8k) (HDR) (film analogique) (canon d5) (éclairage cinématographique) (mise au point nette) | ||
6 |
Véhicule |
a photo of Felted nike high sneakers, advertising photography, RAW, Lightroom, solid color background, high detailed |
| une photo de baskets hautes nike feutrées, photographie publicitaire, RAW, Lightroom, fond de couleur unie, très détaillé | ||
7 |
Produit |
award winning interior photo, photograph, ultra photorealistic, photorealism, film still of inside a modern white spacious (kitchen in a smooth stone cave:1.25), smooth shading, desert, daylight, bright colors, hyper realistic, modern, surreal, lights, minimalistic studio architecture, behance, halation, bloom, dramatic atmosphere, rule of thirds, 8k uhd, dslr, high quality, film grain, Fuji Superia X-TRA 400 |
| photo d'intérieur primée, photographie, ultra photoréaliste, photoréalisme, film fixe de l'intérieur d'un spacieux blanc moderne (cuisine dans une grotte en pierre lisse:1.25), ombrages doux, désert, lumière du jour, couleurs vives, hyper réaliste, moderne, surréaliste, lumières, architecture de studio minimaliste, behance, halation, bloom, atmosphère dramatique, règle des tiers, 8k uhd, dslr, haute qualité, grain de film, Fuji Superia X-TRA 400 | ||
8 |
Architecture |
mountain climber hiking up a mountain, snowy, cold, foggy and misty, overcast day, raytracing, detailed, rocks and ice |
| alpiniste montant une montagne, neigeux, froid, brumeux et brumeux, jour couvert, lancer de rayons, détaillé, rochers et glace | ||
9 |
Nature |
waterfall, green vegetation, ultra, 4k, cinematic look, soothing tones, insane details, intricate details, hyperdetailed, low contrast, soft cinematic light, dim colors, exposure blend, hdr, faded, slate gray atmosphere |
| cascade, végétation verte, ultra, 4k, look cinématographique, tons apaisants, détails insensés, détails complexes, hyperdétaillé, faible contraste, lumière cinématographique douce, couleurs tamisées, mélange d'exposition, hdr, délavé, atmosphère gris ardoise | ||
10 |
Créature fantastique |
Land whale, giant monster, carnivorous, covered in moss, magical green forest, Multiple light sources, dynamic pose, dynamic view, fantasy, shadow, magic, gradient colors, high key, dungeon and dragons style, magic the gathering style |
| Baleine terrestre, monstre géant, carnivore, recouvert de mousse, forêt verte magique, sources de lumière multiples, pose dynamique, vue dynamique, fantaisie, ombre, magie, dégradé de couleurs, high key, style donjon et dragons, magie le style de rassemblement | ||
11 |
Personnage fantastique |
hyperrealistic glamour portrait of a goblin, freckles, skin pores, pores, velus hair, macro, extreme details, looking at viewer |
| portrait glamour hyper réaliste d'un gobelin, taches de rousseur, pores de la peau, pores, cheveux vellus, macro, détails extrêmes, regardant le spectateur | ||
12 |
Femme animée |
anime, realistic, sketch, 1girl, lip, Sweater, order, Blue gradient background, Neon hair, Textured crop, Canadian, (masterpiece,best quality,niji style) |
| anime, réaliste, croquis, 1 fille, lèvre, pull, commande, fond dégradé bleu, cheveux néon, culture texturée, canadien, (chef-d'œuvre, meilleure qualité, style niji) | ||
13 |
Homme animé |
Anime, Saitama, one punch man, detailed anime, (saitama, serious face), determined saitama, ultra detailed, anime style, storm and rain, action scene, rage, detailed, rage face, dynamic pose, close up |
| Anime, Saitama, one punch man, anime détaillé, (saitama, visage sérieux), saitama déterminé, ultra détaillé, style anime, tempête et pluie, scène d'action, rage, détaillé, visage rage, pose dynamique, gros plan | ||
14 |
Balises Booru |
1girl, green hair, school uniform, tower |
| 1fille, cheveux verts, uniforme scolaire, tour | ||
15 |
Bande dessinée |
fire superhero, using superpower, dynamic pose, full color, art by Greg Capullo |
| super-héros du feu, utilisant le super pouvoir, pose dynamique, couleur, art de Greg Capulloanime, réaliste, croquis, 1 fille, lèvre, pull, commande, fond dégradé bleu, cheveux néon, culture texturée, canadien, (chef-d'œuvre, meilleure qualité, style niji) |
| Le résultat du teste de comparaison SDXL, BriXL, Copax TimeLessXL V6, CounterfeitXL, FormulaXL, Hassaku XL alpha v0.4, Juggernaut XL, [Lah] Mystérieux, NightVision XL - Photoréaliste, Liberté réaliste, Photo réaliste. Pour télécharger ces modèles cliquez sur les liens qui vous amèneront sur la page Civitai.com dévolue à leur téléchargement. |

| Le résultat du teste de comparaison SDXL, SDVN7-NijiStyleXL, SDXL_Niji_Special Edition, SDXL Unstable Diffusers V8, Anime SDXL Yamer, SDXL Yamer's Cartoon Arcadia V1, Le réalisme de SDXL Yamer !, SDXL réaliste de Yamer, Starlight XL 星光 animé, XXMix_9realisticSDXL, ZavyChromaXL |

5) Quelques checkpoint merge
6) LoRAClassipeintXL L’article de recherche à l’origine de la tehcnique des LoRA : Une bonne présentation de comment le concept LoRA est appliqué dans Stable Diffusion : Un guide en anglais sur les LoRA qui explique comment en créer soi-même : Autre ressources :
7) ---- Easy Diffusion ----Qu'est-ce qu'Easy Diffusion ? Easy Diffusion est une distribution de la diffusion stable, le principal logiciel d'IA texte-to-image libre. Installation et démarrage : https://easydiffusion.github.io/. Une fois installé, pour utiliser le logiciel, allez sur l'interface web local : http://localhost:9000/. Le serveur redémarre avec la commande ./start.sh dans le dossier d'installation. Guide d'utilisation de SDXL, ControlNet, LoRA etc. avec Easy Diffusion : https://github.com/easydiffusion/easydiffusion/wiki Sujets spécifiques : SDXL : https://github.com/easydiffusion/easydiffusion/wiki/SDXL Conseil : Vous pouvez lancer plusieurs jobs à la suite, ils se metteront un file d'attente. Les promptsLes prompts doivent être en anglais. Les mots peuvent être renforcé en les suffixant par un + (cela multiplie leur influence par 1.1) et par un - (cela multiplie leur influence par 0.9. Les parenthèses peuvent regrouper ce facteur multiplicatif. Exemple : a man (happy tired)++ Mélanger les concepts, exemple : ("a cat", "a dog").blend(0.25, 0.75) Caractère d'échappement \(...\) et \"...\" pour redonner le sens intiale des parenthèses et guillemets. 8) ---- Fooocus sur Linux ----Si vous avez une carte video NVIDIA vous pourrait utiliser Foocus comme suit : Installez Miniconda comme suit : mkdir -p ~/miniconda3 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3 rm -rf ~/miniconda3/miniconda.sh Après l'installation, pour initialiser : ~/miniconda3/bin/conda init bash ~/miniconda3/bin/conda init zsh Installer Fooocus sur Linux : git clone https://github.com/lllyasviel/Fooocus.git cd Fooocus conda env create -f environment.yaml conda activate fooocus pip install -r requirements_versions.txt Pour lancer Fooocus : python entry_with_update.py
|