From ccpp
Evaluates code outputs on 4 axes—functionality/quality/originality/security—spawning an independent evaluator agent for scoring out of 100. Triggers on eval, 평가, quality score. Supports re-evaluation and idempotency tests.
How this skill is triggered — by the user, by Claude, or both
Slash command
/ccpp:evalThis skill is limited to the following tools:
The summary Claude sees in its skill listing — used to decide when to auto-load this skill
Generator(구현자)와 분리된 Evaluator 에이전트를 스폰하여 산출물을 독립 평가합니다.
Generator(구현자)와 분리된 Evaluator 에이전트를 스폰하여 산출물을 독립 평가합니다.
Agent(subagent_type="evaluator",
prompt="~/.claude/agents/evaluator.md를 읽고 현재 프로젝트를 평가하라.
4축(기능 정확성/코드 품질/독창성/사용성&보안) 100점 만점.
결과를 EVAL_REPORT.md에 저장.")
Evaluator가 완료되면 EVAL_REPORT.md를 읽고 사용자에게 요약 보고:
📊 Eval 결과: [PASS/CONDITIONAL/FAIL] — [N]/100점
기능 정확성: [N]/40 | 코드 품질: [N]/25
독창성: [N]/20 | 사용성&보안: [N]/15
[수정 필요 항목 요약]
수정 필요 항목을 구체적으로 안내하고, 수정 후 재평가할지 질문. 재평가 시 동일 기준 적용 (최대 5라운드).
동일 프롬프트로 k회 실행하여 품질 일관성을 측정:
# k=3 실행 예시
for i in 1 2 3; do
/eval 실행 → 점수 기록
done
# 3회 모두 85+ → 멱등성 확보
# 점수 분산 > 15점 → 불안정 (하네스 조정 필요)
수준의 멱등성: 정확히 같은 코드가 아니라 같은 품질 수준이 유지되는지 측정.
npx claudepluginhub jh941213/my-cc-harness --plugin ccppEvaluates code generation quality using ICE Score and Code Judge metrics for functional correctness, usefulness, and consistency. Useful for assessing AI-generated code against requirements.
Self-rates agent output on 5 axes (accuracy, completeness, clarity, actionability, conciseness) with concrete evidence per criterion, producing a structured 1-5 scorecard with improvement suggestions.
Performs comprehensive multi-agent evaluation of code projects across 12 dimensions like safety, completeness, and design quality. Outputs scored reports with executive summaries and improvement roadmaps in 5-10 minutes.