From claude-code-config
Designs multi-agent harness architectures for long-running AI apps using Generator-Evaluator pattern, Sprint Contract negotiation, and context management. Use for agent orchestration, quality evaluation loops, and complex full-stack AI development.
How this skill is triggered — by the user, by Claude, or both
Slash command
/claude-code-config:harness-designopusThe summary Claude sees in its skill listing — used to decide when to auto-load this skill
Источники:
Источники:
См. также: references/proof-loop-research.md — детали paper + repo mapping
| Сигнал | Solo agent | Harness |
|---|---|---|
| Scope | Одна фича, bug fix, refactor | Full-stack app, multi-feature product |
| Длительность | < 30 мин | 1-6+ часов |
| Качество | Baseline достаточно | Нужен polish, originality, craft |
| Стоимость | ~$5-15 | ~$100-200+ |
| Проверка | Manual review | Automated evaluation + Playwright |
Правило: Evaluator оправдан когда задача за пределами reliable solo performance. Не фиксированное yes/no — зависит от complexity tier.
Перед каждой итерацией:
1. Planner определяет фичу и user story
2. Generator и Evaluator ДОГОВАРИВАЮТСЯ о:
- Что значит "done" для этой фичи
- Конкретные testable success criteria
- Что НЕ входит в scope
3. Generator реализует
4. Evaluator валидирует по контракту
5. Если не пройдено → конкретный feedback → повтор с п.3
Контракт = мост между user stories и implementation. Без него evaluator судит по своим критериям, generator не знает что проверять.
Модели уверенно хвалят свою работу — даже когда качество посредственное. Это не баг модели, а свойство: генератор оптимизирован на producing, не на judging.
1. Evaluator выдаёт оценку
2. Ты проверяешь: согласен ли с оценкой?
3. Расхождение → обновляешь QA промпт
4. Типичные проблемы:
- Superficial testing, пропускает edge cases
- Premature approval посредственной работы
- Слишком строгие критерии → бесконечные итерации
5. Повторяешь пока evaluator judgment ≈ твой judgment
1. Design Quality — Целостность
Дизайн ощущается как единое целое, а не коллекция частей?
2. Originality — Уникальность
Штраф за:
3. Craft — Техническое мастерство
4. Functionality — Работоспособность
Пользователь завершает задачу без угадывания?
Фразы в criteria прямо влияют на вывод генератора:
Модели теряют coherence по мере заполнения context window.
Context reset > Compaction:
Модели (особенно Sonnet) начинают сворачивать работу раньше времени — думают что контекст кончается.
При context reset передавать:
- Что уже сделано (с конкретными файлами/строками)
- Какие решения приняты и почему
- Что осталось сделать
- Текущие проблемы и blockers
- Sprint contract для текущей итерации
"Every component in a harness encodes an assumption about what the model can't do on its own"
1. Текущий harness работает? Да →
2. Убери один компонент (напр. sprint decomposition)
3. Качество упало? Да → верни. Нет →
4. Повтори с другим компонентом
5. Остановись на минимальном harness для текущей задачи
| Симптом | Причина | Решение |
|---|---|---|
| Evaluator всё одобряет | Промпт слишком мягкий | Добавь few-shot с detailed score breakdowns, конкретные failure criteria |
| Generator не улучшается | Feedback слишком абстрактный | Evaluator должен давать конкретные файлы/строки/проблемы |
| Бесконечные итерации | Criteria невыполнимы | Пересмотри контракт, снизь планку или split задачу |
| Context degradation | Длинная сессия без reset | Structured handoff + clean context reset |
| Все итерации выглядят одинаково | Criteria слишком узкие | Расширь пространство, убери "museum quality" формулировки |
| Evaluator ловит мелочи, пропускает крупное | Wrong priority в промпте | Restructure: critical → high → medium → cosmetic |
npx claudepluginhub anastasiyaw/claude-code-configSeparates generation and evaluation into an adversarial feedback loop for building high-quality applications autonomously. Uses Planner, Generator, and Evaluator agents with Playwright testing to iterate beyond single-agent quality.
Designs autonomous agent harnesses with research loops, evaluation scaffolds, locked/editable surfaces, durable logs, novelty gates, pruning, rollback, and human approval boundaries.
Designs and optimizes AI agent action spaces, tool definitions, observation formats, error recovery, and context for higher task completion rates.