|
Modèle |
Site de téléchargement |
Taille image recommendée |
Date de sortie |
SD 1.4 | https://huggingface.co/CompVis/stable-diffusion-v1-4 | 512×512 pixels | Aout 2022 |
SD 1.5 | https://huggingface.co/runwayml/stable-diffusion-v1-5 | 512×512 pixels | Octobre 2022 |
SD 2.0 | https://huggingface.co/stabilityai/stable-diffusion-2 | 718×718 pixels | Novembre 2022 |
SD 2.1 | https://huggingface.co/stabilityai/stable-diffusion-2-1 | 718×718 pixels | Décembre 2022 |
SDXL 0.9 base | https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-0.9 | 1024×1024 pixels | Juin 2023 |
SDXL 1.0 base | https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0 | 1024×1024 pixels | Juillet 2024 |
SDXL 1.0 refiner | https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0 |
Le modèle SDXL de génération d'image par intélligence artificielle le plus récent est capable de générer des photos très réalistes et très détaillées, intégrant des écritures.
Présentation du modèle SDXL et téléchargement : https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
Guide SDXL : https://www.stablediffusion.blog/stable-diffusion-xl
Le fine-tuning prend un modèle déjà entraîné sur un large ensemble de données, et l'entraîne un peu plus sur un ensemble de données spécifiques. Un modèle fine-tuné sera ainsi orienté vers la génération d'images similaires à celles de son entrainement, tout en conservant la polyvalence du modèle d'origine. Il y a 4 principales méthodes de fine-tuning, produisant ainsi 4 type de modèles, les checkpoints, les dreambooth, les embedding, les Lora.
Checkpoint. On entraîne un modèle de base avec un ensemble de données supplémentaire qui vous intéresse. Par exemple, vous pouvez entraîner Stable Diffusion v1.5 avec un ensemble de données supplémentaire de voitures vintage pour biaiser l'esthétique des voitures vers le sous-genre. Cet entrainement génère un nouveau modèle sous la forme d’un fichier checkpoint.
Dreambooth est une technique développée à l'origine par Google qui permet d'injecter des sujets personnalisés dans les modèles texte-image. Il fonctionne avec aussi peu que 3 à 5 images personnalisées. Cette méthode a été popularisé très rapidement car c’est elle qui a permit la création des premiers services permettant de créer des avatars personnalisés avec l’IA : Vous pouvez prendre quelques photos de vous-même et utiliser Dreambooth pour vous insérer dans le modèle. Son principal inconvenient est qu’en ajoutant de nouvelles données au modèle existant, le fichier checkpoint qui en résulte peut devenir très lourd (5Go ou plus).
Embedding. L'objectif est similaire à Dreambooth : injecter un sujet personnalisé dans le modèle avec seulement quelques exemples pour lequel on crée un nouveau mot-clé unique. Avec cette méthode, seul la partie textuelle du modèle est fine-tunée, tout en conservant le reste du modèle inchangé. En d’autres termes, il s'agit d'apprendre au modèle la signification d’un nouveau mot, sans modifier les concepts visuels qu’il connait déjà. Son gros avantages est qu’il génères des fichiers complémentaires au modéle lui-même. Ces fichiers sont beaucoup plus léger à échanger et peuvent, parfois, fonctionner avec d’autres modèles que celui de départ.
LoRA (pour Low-Rank Adaptation) désigne une technique mathématique utilisée pour réduire le nombre de paramètres qui doivent être entraînés lors du fine-tuning des modèles. Elle fonctionne en créant une différence de modèle au lieu de sauvegarder le modèle entier. Les fichiers LoRA sont donc encore plus petits et faciles à échanger que les embedding.
Il existe deux catégorie de checkpoints, ceux entrainés (checkpoint trained) et ceux fusionnés (checkpoint merge) :
checkpoint trained. Ce sont des modèles de base qui ont été entrainé avec de nouvelles images.
checkpoint merge. Ce sont des fusions de plusieurs checkpoints trained.
Civitai.com est dédié à Stable Diffusion on y trouve des milliers de modèles téléchargeables gratuitement. Vous sélectionner dans le filtre, le modèle de base, SDXL 1.0, et le type de modèle checkpoints trained ou checkpoints merge et vous pourrez télécharger desmilliers de modèles de ce type.
On utilise une même configuration :
Échelle CFG : 7
Étapes : 20
Échantillonneur : DPM++ 2M Karras
Taille : 1024×1024
Graine : 4
On utilise un même prompt (comprenant 15 prompts à la ligne) :
1 |
Portrait féminin |
beautiful lady, (freckles), big smile, blue eyes, short hair, dark makeup, hyperdetailed photography, soft light, head and shoulders portrait, cover | belle dame, (taches de rousseur), grand sourire, yeux bleus, cheveux courts, maquillage foncé, photographie hyperdétaillée, lumière douce, portrait tête et épaules, couverture |
2 |
Portrait masculin |
analog photo, closeup portrait photo of 28 y.o asian man, natural skin, looks at viewer, city street, (cinematic shot, film grain:1.1) | photo analogique, photo portrait en gros plan d'un homme asiatique de 28 ans, peau naturelle, regarde le spectateur, rue de la ville, (prise de vue cinématographique, grain du film:1.1) |
3 |
Cadre intérieur |
photograph close up portrait of happy woman at birthday party, cake, people in background, cinematic 4k epic detailed 4k epic detailed photograph shot on kodak detailed bokeh cinematic hbo dark moody | photographier le portrait en gros plan d'une femme heureuse à la fête d'anniversaire, gâteau, personnes en arrière-plan, cinématique 4k épique détaillée 4k épique photographie détaillée prise sur kodak bokeh détaillé cinématique hbo sombre de mauvaise humeur |
4 |
Cadre extérieur |
Colorful ink cascaded the canvas, forming cat face. photo, studio lighting, sony a7, 35mm, hyperrealistic, big depth of field, concept art, colors, hyperdetailed, hyperrealistic, (big depth of field), (moody lighting), (ambient light), ((cinematic)) | De l'encre colorée coulait sur la toile, formant une tête de chat. photo, éclairage de studio, sony a7, 35 mm, hyperréaliste, grande profondeur de champ, concept art, couleurs, hyperdétaillé, hyperréaliste, (grande profondeur de champ), (éclairage d'ambiance), (lumière ambiante), ((cinématique)) |
5 |
Animal |
luxury exotic sports car night photography casino driveway 200mm zoom lens f/1.4 (intricate details) (8k) (HDR) (analog film) (canon d5) (cinematic lighting) (sharp focus) | voiture de sport exotique de luxe photographie de nuit allée de casino objectif zoom 200 mm f/1.4 (détails complexes) (8k) (HDR) (film analogique) (canon d5) (éclairage cinématographique) (mise au point nette) |
6 |
Véhicule |
a photo of Felted nike high sneakers, advertising photography, RAW, Lightroom, solid color background, high detailed | une photo de baskets hautes nike feutrées, photographie publicitaire, RAW, Lightroom, fond de couleur unie, très détaillé |
7 |
Produit |
award winning interior photo, photograph, ultra photorealistic, photorealism, film still of inside a modern white spacious (kitchen in a smooth stone cave:1.25), smooth shading, desert, daylight, bright colors, hyper realistic, modern, surreal, lights, minimalistic studio architecture, behance, halation, bloom, dramatic atmosphere, rule of thirds, 8k uhd, dslr, high quality, film grain, Fuji Superia X-TRA 400 | photo d'intérieur primée, photographie, ultra photoréaliste, photoréalisme, film fixe de l'intérieur d'un spacieux blanc moderne (cuisine dans une grotte en pierre lisse:1.25), ombrages doux, désert, lumière du jour, couleurs vives, hyper réaliste, moderne, surréaliste, lumières, architecture de studio minimaliste, behance, halation, bloom, atmosphère dramatique, règle des tiers, 8k uhd, dslr, haute qualité, grain de film, Fuji Superia X-TRA 400 |
8 |
Architecture |
mountain climber hiking up a mountain, snowy, cold, foggy and misty, overcast day, raytracing, detailed, rocks and ice | alpiniste montant une montagne, neigeux, froid, brumeux et brumeux, jour couvert, lancer de rayons, détaillé, rochers et glace |
9 |
Nature |
waterfall, green vegetation, ultra, 4k, cinematic look, soothing tones, insane details, intricate details, hyperdetailed, low contrast, soft cinematic light, dim colors, exposure blend, hdr, faded, slate gray atmosphere | cascade, végétation verte, ultra, 4k, look cinématographique, tons apaisants, détails insensés, détails complexes, hyperdétaillé, faible contraste, lumière cinématographique douce, couleurs tamisées, mélange d'exposition, hdr, délavé, atmosphère gris ardoise |
10 |
Créature fantastique |
Land whale, giant monster, carnivorous, covered in moss, magical green forest, Multiple light sources, dynamic pose, dynamic view, fantasy, shadow, magic, gradient colors, high key, dungeon and dragons style, magic the gathering style | Baleine terrestre, monstre géant, carnivore, recouvert de mousse, forêt verte magique, sources de lumière multiples, pose dynamique, vue dynamique, fantaisie, ombre, magie, dégradé de couleurs, high key, style donjon et dragons, magie le style de rassemblement |
11 |
Personnage fantastique |
hyperrealistic glamour portrait of a goblin, freckles, skin pores, pores, velus hair, macro, extreme details, looking at viewer | portrait glamour hyper réaliste d'un gobelin, taches de rousseur, pores de la peau, pores, cheveux vellus, macro, détails extrêmes, regardant le spectateur |
12 |
Femme animée |
anime, realistic, sketch, 1girl, lip, Sweater, order, Blue gradient background, Neon hair, Textured crop, Canadian, (masterpiece,best quality,niji style) | anime, réaliste, croquis, 1 fille, lèvre, pull, commande, fond dégradé bleu, cheveux néon, culture texturée, canadien, (chef-d'œuvre, meilleure qualité, style niji) |
13 |
Homme animé |
Anime, Saitama, one punch man, detailed anime, (saitama, serious face), determined saitama, ultra detailed, anime style, storm and rain, action scene, rage, detailed, rage face, dynamic pose, close up | Anime, Saitama, one punch man, anime détaillé, (saitama, visage sérieux), saitama déterminé, ultra détaillé, style anime, tempête et pluie, scène d'action, rage, détaillé, visage rage, pose dynamique, gros plan |
14 |
Balises Booru |
1girl, green hair, school uniform, tower | 1fille, cheveux verts, uniforme scolaire, tour |
15 |
Bande dessinée |
fire superhero, using superpower, dynamic pose, full color, art by Greg Capullo | super-héros du feu, utilisant le super pouvoir, pose dynamique, couleur, art de Greg Capullo |
Le résultat du teste de comparaison SDXL, BriXL, Copax TimeLessXL V6, CounterfeitXL, FormulaXL, Hassaku XL alpha v0.4, Juggernaut XL, [Lah] Mystérieux, NightVision XL - Photoréaliste, Liberté réaliste, Photo réaliste. Pour télécharger ces modèles cliquez sur les liens qui vous amèneront sur la page Civitai.com dévolue à leur téléchargement. |
Le résultat du teste de comparaison SDXL, SDVN7-NijiStyleXL, SDXL_Niji_Special Edition, SDXL Unstable Diffusers V7 (Remarque : le lien ci-dessus concernait la V8), Anime SDXL Yamer, SDXL Yamer's Cartoon Arcadia V1, Le réalisme de SDXL Yamer !, SDXL réaliste de Yamer, Starlight XL 星光 animé, XXMix_9realisticSDXL, ZavyChromaXL
5) Quelques checkpoint merge
|
Site de générateur AI-text-to-image : | https://www.seaart.ai/fr |
Site de générateur AI-text-to-image : | https://civitai.com/ |
PERCHANCE.ORG Site de générateur AI-text-to-image gratuit et non censuré : |
https://perchance.org/ai-text-to-image-generator |
Qu'est-ce qu'Easy Diffusion ? Easy Diffusion est une distribution de la diffusion stable, le principal logiciel d'IA texte-to-image libre.
Installation et démarrage : https://easydiffusion.github.io/. Une fois installé, pour utiliser le logiciel, allez sur l'interface web local : http://localhost:9000/. Le serveur redémarre avec la commande ./start.sh dans le dossier d'installation.
Guide d'utilisation de SDXL, ControlNet, LoRA etc. avec Easy Diffusion : https://github.com/easydiffusion/easydiffusion/wiki
Sujets spécifiques :
SDXL : https://github.com/easydiffusion/easydiffusion/wiki/SDXL
ControlNet : https://github.com/easydiffusion/easydiffusion/wiki/ControlNet
Multiple LoRA files : https://github.com/easydiffusion/easydiffusion/wiki/LoRA
Prompt Syntax (weights, emphasis etc) : https://github.com/easydiffusion/easydiffusion/wiki/Prompt-Syntax
Embeddings : https://github.com/easydiffusion/easydiffusion/wiki/Embeddings
xFormers : https://github.com/easydiffusion/easydiffusion/wiki/xFormers
Conseil :
Vous pouvez lancer plusieurs jobs à la suite, ils se metteront un file d'attente.
Vous pouvez Mettre un prompt par ligne, le travail sera répété pour chaque lignes.
Paramètres : Taille 512×768 pour modele SD et 1024×1024 pour model SDXL
Étapes d'inférence (inférene steps) 30 à 40 suffises (turbo 5 à 8)
Échelle de guidage Guidance Scale 7.5 (turbo 1 à 5)
Modèle SDXL modèle de base : https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0.safetensors
et L'AEV correspondant : https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/blob/main/sd_xl_base_1.0_0.9vae.safetensors
Une fois l'image créée, vous pouvez utiliser "Face Correction" ou "Upscaling" pour améliorer l'image, puis sur "Use as input" pour l'utiliser comme image d'entrée.
Vous pouvez utiliser une image d'entrée au même dimension.
Les prompts doivent être en anglais. Les mots peuvent être renforcé en les suffixant par un + (cela multiplie leur influence par 1.1) et par un - (cela multiplie leur influence par 0.9. Les parenthèses peuvent regrouper ce facteur multiplicatif. Exemple : a man (happy tired)++
Mélanger les concepts, exemple : ("a cat", "a dog").blend(0.25, 0.75)
Caractère d'échappement \(...\) et \"...\" pour redonner le sens intiale des parenthèses et guillemets.
Si vous avez une carte video NVIDIA vous pourrait utiliser Foocus comme suit :
Installez Miniconda comme suit :
mkdir -p ~/miniconda3 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3 rm -rf ~/miniconda3/miniconda.sh
Après l'installation, pour initialiser :
~/miniconda3/bin/conda init bash ~/miniconda3/bin/conda init zsh
Installer Fooocus sur Linux :
git clone https://github.com/lllyasviel/Fooocus.git cd Fooocus conda env create -f environment.yaml conda activate fooocus pip install -r requirements_versions.txt
Pour lancer Fooocus :
python entry_with_update.py