Skill

vlm-segmentation-engineering

Engineers VLM segmentation pipelines with SAM3, Grounding DINO, YOLO-World; diffusion models like UNet, DiT, Flux with LoRA, schedulers; GPU deployment via MIG, MPS, TorchAO, Triton for H100.

PyTorch

Python

ai-ml

Popularity

Stars

126

Forks

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/claude-code-config:vlm-segmentation

User invocable

Model invocable

Inline context

Default effort

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

Скилл охватывает три тесно связанных домена. Выбери нужный раздел и загрузи соответствующий reference-файл.

Supporting Files

references/diffusion-engineering.mdreferences/gpu-deployment.mdreferences/vlm-segmentation.md

SKILL.md

84 lines · ~969 tokens

Stats

LanguagePython

Stars126

Forks19

MaintenanceExcellent

Last CommitJun 15, 2026

Actions

View Source View Plugin View on GitHub View README

VLM + Segmentation + Diffusion Engineering

Скилл охватывает три тесно связанных домена. Выбери нужный раздел и загрузи соответствующий reference-файл.

Навигация по доменам

Задача	Reference файл
Выбор модели сегментации, pipeline "текст → маски", VLM-стек, part-labeling	`references/vlm-segmentation.md`
Диффузионные архитектуры, schedulers, обучение, LoRA, text encoder fusion	`references/diffusion-engineering.md`
Два инстанса SAM3 на H100, MIG/MPS, memory, профилирование	`references/gpu-deployment.md`

Правило выбора: если вопрос смешивает темы (например, "как деплоить диффузионную модель на H100") — прочитай оба релевантных файла.

Быстрые ответы без чтения reference-файлов

Два инстанса SAM3 на H100 (дефолт)

MIG (рекомендовано) → аппаратная изоляция, QoS гарантирована
sudo nvidia-smi mig -cgi 4g.40gb,3g.40gb -C
CUDA_VISIBLE_DEVICES=<MIG-UUID> python worker.py

MPS (fallback) → кооперативный шеринг, без строгой изоляции

Ключевые характеристики моделей (быстрая справка)

Модель	Параметры	Лицензия	Главная сильная сторона
SAM3	848M	SAM License (gated)	Open-vocab сегментация по тексту, все инстансы
SAM2.1-large	224M	Apache-2.0	Видео-трекинг, интерактивная сегментация, 39.5 FPS A100
SAM2.1-tiny	39M	Apache-2.0	Быстрый, 91.2 FPS A100
Florence-2-large	770M	MIT	Унифицированные задачи через task prompt
EdgeTAM	~SAM2-tiny	Apache-2.0	16 FPS на iPhone 15 Pro Max, CoreML
Grounding DINO	—	Apache-2.0	Text-conditioned detection, boxes
YOLO-World	—	GPL-3.0	Real-time open-vocab OD, 52 FPS V100

Критические предупреждения

SAM3: gated access на HF, кастомная SAM License — проверь перед продакшном
YOLO-World: GPL-3.0 в репо — для коммерции нужна отдельная лицензия
Замена text encoder: не plug-and-play, нужен projection + переобучение cross-attention
MIG vs MPS: только MIG даёт аппаратную изоляцию VRAM/SM; MPS — кооперативный шеринг
Русский язык в промптах: для Grounding DINO / OWLv2 / YOLO-World надёжнее EN + маппинг на RU

vlm-segmentation-engineering

Popularity

Invocation

Context Preview

Supporting Files

SKILL.md

vlm-segmentation-engineering

Popularity

Invocation

Context Preview

Supporting Files

SKILL.md

VLM + Segmentation + Diffusion Engineering

Навигация по доменам

Быстрые ответы без чтения reference-файлов

Рекомендованный pipeline "фраза → маски" (дефолт)

Рекомендованный pipeline "диффузия" (дефолт)

Два инстанса SAM3 на H100 (дефолт)

Ключевые характеристики моделей (быстрая справка)

Критические предупреждения

Similar Skills

VLM + Segmentation + Diffusion Engineering

Навигация по доменам

Быстрые ответы без чтения reference-файлов

Рекомендованный pipeline "фраза → маски" (дефолт)

Рекомендованный pipeline "диффузия" (дефолт)

Два инстанса SAM3 на H100 (дефолт)

Ключевые характеристики моделей (быстрая справка)

Критические предупреждения

Similar Skills