From claude-code-config
Engineers VLM segmentation pipelines with SAM3, Grounding DINO, YOLO-World; diffusion models like UNet, DiT, Flux with LoRA, schedulers; GPU deployment via MIG, MPS, TorchAO, Triton for H100.
How this skill is triggered — by the user, by Claude, or both
Slash command
/claude-code-config:vlm-segmentationThe summary Claude sees in its skill listing — used to decide when to auto-load this skill
Скилл охватывает три тесно связанных домена. Выбери нужный раздел и загрузи соответствующий reference-файл.
Скилл охватывает три тесно связанных домена. Выбери нужный раздел и загрузи соответствующий reference-файл.
| Задача | Reference файл |
|---|---|
| Выбор модели сегментации, pipeline "текст → маски", VLM-стек, part-labeling | references/vlm-segmentation.md |
| Диффузионные архитектуры, schedulers, обучение, LoRA, text encoder fusion | references/diffusion-engineering.md |
| Два инстанса SAM3 на H100, MIG/MPS, memory, профилирование | references/gpu-deployment.md |
Правило выбора: если вопрос смешивает темы (например, "как деплоить диффузионную модель на H100") — прочитай оба релевантных файла.
1. SAM3 PCS (текстовый концепт) → instance masks + boxes + scores
ИЛИ
Grounding DINO / OWLv2 / YOLO-World → boxes → SAM2.1 → masks
2. Part-labeling: отдельный классификатор по ROI + фиксированный словарь
1. Backbone: UNet (просто) или DiT/Flow (масштабирование)
2. Latent diffusion (VAE → латенты → денойзер → VAE decode)
3. Text encoder: CLIP (SD), два CLIP (SDXL), Qwen3 (Flux.2 klein 9B)
4. Fine-tune: начинать с LoRA, full fine-tune только если нужно
5. Memory: AMP (BF16) → checkpointing → ZeRO/FSDP при масштабе
MIG (рекомендовано) → аппаратная изоляция, QoS гарантирована
sudo nvidia-smi mig -cgi 4g.40gb,3g.40gb -C
CUDA_VISIBLE_DEVICES=<MIG-UUID> python worker.py
MPS (fallback) → кооперативный шеринг, без строгой изоляции
| Модель | Параметры | Лицензия | Главная сильная сторона |
|---|---|---|---|
| SAM3 | 848M | SAM License (gated) | Open-vocab сегментация по тексту, все инстансы |
| SAM2.1-large | 224M | Apache-2.0 | Видео-трекинг, интерактивная сегментация, 39.5 FPS A100 |
| SAM2.1-tiny | 39M | Apache-2.0 | Быстрый, 91.2 FPS A100 |
| Florence-2-large | 770M | MIT | Унифицированные задачи через task prompt |
| EdgeTAM | ~SAM2-tiny | Apache-2.0 | 16 FPS на iPhone 15 Pro Max, CoreML |
| Grounding DINO | — | Apache-2.0 | Text-conditioned detection, boxes |
| YOLO-World | — | GPL-3.0 | Real-time open-vocab OD, 52 FPS V100 |
npx claudepluginhub anastasiyaw/claude-code-configGuides practical diffusion model engineering: architectures (UNet/DiT/Flux), training (LoRA/DreamBooth), schedulers/samplers, memory optimization (AMP/ZeRO/FSDP/quantization), Diffusers pipelines, evaluation (FID/CLIPScore). Use for Stable Diffusion, SDXL, text-to-image, ControlNet.
Guides designing, implementing, and optimizing computer vision pipelines using YOLO26 for detection, SAM 3 for segmentation, VLMs for reasoning, and tools for 3D reconstruction and edge deployment.
Guides Diffusers inference on Huawei Ascend NPU: environment checks, image/video pipeline, memory optimization (CPU offload, attention slicing, VAE slicing), LoRA loading/fusing, multi-card inference, and version-specific API retrieval.