diffusion-engineering | claude-code-config

Stats

Actions

Tags

diffusion-engineering | claude-code-config

Diffusion Engineering Skill

Быстрая ориентация

Три инженерных решения, которые больше всего влияют на качество/скорость/стоимость:

Где идёт диффузия → пиксели (дорого) или латентное пространство (LDM/SD-семейство — практично)
Backbone денойзера → UNet (классика, проще) или Transformer/DiT/Flow (масштабируется лучше)
Управление сэмплингом → scheduler, число шагов, guidance_scale — часто дают больше, чем правка сети

Reference files — читать по задаче

Тема	Файл	Когда читать
Архитектуры и data flow	`references/architectures.md`	DDPM/SDE/LDM/DiT/Flux/VAE/SDXL, схема пайплайна
Schedulers и guidance	`references/samplers.md`	DDIM/Euler/Heun/DPM-Solver/PNDM, CFG, prediction_type
Обучение и дообучение	`references/training.md`	Loss/цели, LoRA/DreamBooth/full FT, гиперпараметры
Память и распределённость	`references/memory.md`	AMP, checkpointing, ZeRO, FSDP, quantization, FP8
Текст-энкодеры и данные	`references/encoders-data.md`	CLIP/Qwen/multi-encoder, токенизация, data pipeline
Оценка и траблшутинг	`references/eval-debug.md`	FID/CLIPScore/LPIPS, типовые поломки и фиксы, лицензии

Быстрый чеклист «я строю/модифицирую diffusion»

Backbone: UNet (проще) или DiT/Flow (масштабирование)?
Модули зафиксированы: tokenizer → text encoder → encoder_hidden_states → denoiser → VAE decode
Scheduler выбран: DDIM / Euler / DPM-Solver — A/B на фиксированных seed
Дообучение: начинать с LoRA, в full fine-tune только при необходимости
Память: AMP включён, при необходимости checkpointing, при масштабе ZeRO/FSDP
Данные: стриминг/шардинг (HF streaming, WebDataset), валидировать throughput dataloader
Оценка: FID + CLIPScore + LPIPS + human rating; отдельно дневник промптов для overfitting

Trade-offs на один экран

Ручка	Увеличить	Уменьшить
`num_inference_steps`	↑ качество	↑ время
`guidance_scale` (CFG)	↑ adherence к промпту, риск «пережога»	↑ разнообразие
LoRA rank	↑ выразительность	↑ параметры, риск overfitting
Шаги дообучения	↑ адаптация	↑ риск catastrophic forgetting
Batch size	↑ стабильность градиентов	↑ VRAM

Мини-рецепты по бюджету GPU

Бюджет	Что делать
8–16 GB (1 GPU)	LoRA вместо full FT; grad accumulation; BF16/FP16; xFormers/SDPA; 8-bit оптимизатор
24–48 GB (1–4 GPU)	LoRA или partial FT; иногда FSDP; большее разрешение
8+ GPU, H100	Full FT, ZeRO-3/FSDP, float8, WebDataset стриминг, масштабный датапайплайн