From claude-code-config
Guides practical diffusion model engineering: architectures (UNet/DiT/Flux), training (LoRA/DreamBooth), schedulers/samplers, memory optimization (AMP/ZeRO/FSDP/quantization), Diffusers pipelines, evaluation (FID/CLIPScore). Use for Stable Diffusion, SDXL, text-to-image, ControlNet.
How this skill is triggered — by the user, by Claude, or both
Slash command
/claude-code-config:diffusion-engineeringThe summary Claude sees in its skill listing — used to decide when to auto-load this skill
Три инженерных решения, которые больше всего влияют на качество/скорость/стоимость:
Три инженерных решения, которые больше всего влияют на качество/скорость/стоимость:
| Тема | Файл | Когда читать |
|---|---|---|
| Архитектуры и data flow | references/architectures.md | DDPM/SDE/LDM/DiT/Flux/VAE/SDXL, схема пайплайна |
| Schedulers и guidance | references/samplers.md | DDIM/Euler/Heun/DPM-Solver/PNDM, CFG, prediction_type |
| Обучение и дообучение | references/training.md | Loss/цели, LoRA/DreamBooth/full FT, гиперпараметры |
| Память и распределённость | references/memory.md | AMP, checkpointing, ZeRO, FSDP, quantization, FP8 |
| Текст-энкодеры и данные | references/encoders-data.md | CLIP/Qwen/multi-encoder, токенизация, data pipeline |
| Оценка и траблшутинг | references/eval-debug.md | FID/CLIPScore/LPIPS, типовые поломки и фиксы, лицензии |
encoder_hidden_states → denoiser → VAE decode| Ручка | Увеличить | Уменьшить |
|---|---|---|
num_inference_steps | ↑ качество | ↑ время |
guidance_scale (CFG) | ↑ adherence к промпту, риск «пережога» | ↑ разнообразие |
| LoRA rank | ↑ выразительность | ↑ параметры, риск overfitting |
| Шаги дообучения | ↑ адаптация | ↑ риск catastrophic forgetting |
| Batch size | ↑ стабильность градиентов | ↑ VRAM |
| Бюджет | Что делать |
|---|---|
| 8–16 GB (1 GPU) | LoRA вместо full FT; grad accumulation; BF16/FP16; xFormers/SDPA; 8-bit оптимизатор |
| 24–48 GB (1–4 GPU) | LoRA или partial FT; иногда FSDP; большее разрешение |
| 8+ GPU, H100 | Full FT, ZeRO-3/FSDP, float8, WebDataset стриминг, масштабный датапайплайн |
npx claudepluginhub anastasiyaw/claude-code-configBuilds a generative diffusion model (DDPM/score-based) from scratch with noise scheduling, U-Net denoising, training loop, and accelerated sampling.
Engineers VLM segmentation pipelines with SAM3, Grounding DINO, YOLO-World; diffusion models like UNet, DiT, Flux with LoRA, schedulers; GPU deployment via MIG, MPS, TorchAO, Triton for H100.
Guides Diffusers inference on Huawei Ascend NPU: environment checks, image/video pipeline, memory optimization (CPU offload, attention slicing, VAE slicing), LoRA loading/fusing, multi-card inference, and version-specific API retrieval.