From siae-devforge
Use when iteratively optimizing an existing DevForge skill (description, trigger, prompt) via the autoresearch method (Karpathy). Ottimizza iterativamente una skill DevForge. Trigger: ottimizza skill, migliora description, autoresearch, migliora trigger, ottimizza prompt, analizza performance skill. NON usare per: scrivere nuove skill (usa siae-writing-skills), eseguire eval singoli (usa runner.py direttamente), debug skill (usa siae-debugging).
How this skill is triggered — by the user, by Claude, or both
Slash command
/siae-devforge:siae-autoresearchThe summary Claude sees in its skill listing — used to decide when to auto-load this skill
```
╔══════════════════════════════════════════════════════════════════╗
║ ███████╗██╗ █████╗ ███████╗ ██████╗ ███████╗██╗ ██╗ ║
║ ██╔════╝██║██╔══██╗██╔════╝ ██╔══██╗██╔════╝██║ ██║ ║
║ ███████╗██║███████║█████╗ ██║ ██║█████╗ ██║ ██║ ║
║ ╚════██║██║██╔══██║██╔══╝ ██║ ██║██╔══╝ ╚██╗ ██╔╝ ║
║ ███████║██║██║ ██║███████╗ ██████╔╝███████╗ ╚████╔╝ ║
║ ╚══════╝╚═╝╚═╝ ╚═╝╚══════╝ ╚═════╝ ╚══════╝ ╚═══╝ ║
║ 🔨 DevForge · AUTORESEARCH ║
║ "Il codice si forgia. Il developer cresce." ║
╚══════════════════════════════════════════════════════════════════╝
Tipo: Flexible | Fase SDLC: Cross-cutting
| Autoresearch FA | Autoresearch NON FA |
|---|---|
| Ottimizza skill esistenti iterativamente | Scrive nuove skill (→ siae-writing-skills) |
Usa evals/autoresearch.py con Bedrock diretto | Duplica logica di eval/grading |
| Genera varianti description e le testa con A/B | Modifica direttamente SKILL.md senza misurare |
| Produce changelog + regole universali | Sostituisce test strutturali (tests/run-all.sh) |
Sempre:
Eccezioni (chiedi esplicitamente al partner umano):
evals/eval-sets/)Prima di iniziare, verifica che la skill target abbia:
evals/eval-sets/<skill-name>/trigger.json (minimo 20 query)name e description validiAWS_REGION, credenziali attive)Se manca il trigger.json, fermati e chiedi all'utente se vuole generarlo prima.
🟢 SICURO
Chiedi all'utente quale skill vuole ottimizzare (o inferisci dal contesto)
Verifica pre-requisiti:
evals/eval-sets/<skill-name>/trigger.jsonAWS_REGION impostato)Lancia lo script autoresearch:
cd <plugin-root> && python3 evals/autoresearch.py --skill <skill-name>
Opzioni disponibili:
| Flag | Default | Descrizione |
|---|---|---|
--max-iter N | 6 | Max iterazioni del loop |
--target X.XX | 0.90 | Target accuracy |
--runs N | 1 | Run per query (piu' = piu' stabile, piu' lento) |
--dry-run | — | Solo validazione struttura, nessun eval |
--validate | — | Dopo il loop, lancia validazione finale con claude -p |
--no-color | — | Output senza colori |
🟢 SICURO
Lo script esegue autonomamente:
Output visuale in tempo reale:
🔬 AUTORESEARCH — siae-brainstorming
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Iter Cambio P R Acc Δ Progresso Esito
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
0 — (baseline) 0.80 0.60 0.70 — ▪▪▪▪▪▪▪░░░ base
1 +keyword "architettura" 0.80 0.70 0.75 +0.05 ▪▪▪▪▪▪▪▪░░ ✓ WIN
2 +esclusione "NON code review" 0.90 0.70 0.80 +0.05 ▪▪▪▪▪▪▪▪░░ ✓ WIN
3 -"design" (troppo generico) 0.85 0.70 0.78 -0.02 ▪▪▪▪▪▪▪▪░░ ⟲ REVERT
4 +"approcci possibili" 0.90 0.80 0.85 +0.05 ▪▪▪▪▪▪▪▪▪░ ✓ WIN
5 +"trade-off alternative" 0.90 0.90 0.90 +0.05 ▪▪▪▪▪▪▪▪▪▪ 🎯 TARGET
🟡 MEDIO — Modifica il frontmatter SKILL.md della skill target
Quando lo script termina, mostra:
Se il loop ha prodotto un miglioramento:
evals/workspace/description nel frontmatter di skills/<skill-name>/SKILL.mdpython3 evals/runner.py --skill <skill-name> --ab-test \
--description-b "<description ottimizzata>" --runs 3 --verbose
Se il loop NON ha prodotto miglioramenti:
| Pensiero | Realta' |
|---|---|
| "La description attuale va bene, non serve ottimizzarla" | Se non hai misurato precision e recall, non sai se va bene. Misura prima, giudica dopo. |
| "Cambio due cose insieme cosi' vado piu' veloce" | Cambiando due variabili non sai quale ha avuto effetto. Un cambio alla volta, sempre. |
| "Il risultato e' peggiorato, ma la nuova description mi sembra migliore" | I numeri vincono sulle impressioni. Se A vince, tieni A. |
| "Faccio ancora un'iterazione, sicuramente migliora" | Se 3 iterazioni consecutive non migliorano, sei in plateau. Fermati e ripensa l'approccio. |
| "Non serve loggare il revert, tanto non ha funzionato" | I revert sono dati preziosi. Sapere cosa NON funziona e' meta' dell'ottimizzazione. |
| "Applico la description senza ri-testare, tanto ho visto i risultati del loop" | Il test post-applicazione conferma che il cambio nel file reale produce gli stessi risultati del --description-b. Mai saltarlo. |
| "L'eval set e' troppo piccolo, i risultati non contano" | 20 query con 3 run ciascuna sono 60 data point. Non perfetto, ma statisticamente informativo. Se vuoi di piu', amplia l'eval set prima. |
| "Posso ottimizzare a occhio senza baseline" | Senza baseline non sai se hai migliorato o peggiorato. Il baseline e' il punto zero non negoziabile. |
| Operazione | Livello | Card |
|---|---|---|
| Lettura frontmatter e eval set | 🟢 Sicuro | No |
| Esecuzione baseline (runner.py L1) | 🟢 Sicuro | No |
| Analisi punto debole | 🟢 Sicuro | No |
| A/B test con description candidata | 🟡 Medio | No (non modifica file) |
| Applicazione description a SKILL.md | 🟡 Medio | Si |
| Estrazione regole | 🟢 Sicuro | No |
--description-b per testarenpx claudepluginhub itsiae/siae-dev-forge --plugin siae-devforgeProvides behavioral guidelines to reduce common LLM coding mistakes, focusing on simplicity, surgical changes, assumption surfacing, and verifiable success criteria.
Searches, retrieves, and installs Agent Skills from prompts.chat registry using MCP tools like search_skills and get_skill. Activates for finding skills, browsing catalogs, or extending Claude.
Creates, edits, and optimizes skills for Claude Code, including drafting, evaluating with test prompts, iterating on performance, and improving skill descriptions for better triggering accuracy.