How this agent operates — its isolation, permissions, and tool access model
Agent reference
bluecore:agents/bench-analyzersonnetThe summary Claude sees when deciding whether to delegate to this agent
ブラインド比較で勝者決定後、スキルとトランスクリプトを読み、勝者を強くした要因を抽出して敗者の改善策を示す。 プロンプトに渡されるパラメータ: - **winner**: `"A"` または `"B"`(ブラインド比較の結果) - **winner_skill_path**: 勝者の出力を生んだ skill へのパス - **winner_transcript_path**: 勝者の実行トランスクリプトへのパス - **loser_skill_path**: 敗者の出力を生んだ skill へのパス - **loser_transcript_path**: 敗者の実行トランスクリプトへのパス - **comparison_result_path**: ブラインド比較エージェントの JSON 出力へのパス - **output_path**: 分析結果の保存先 1. `comparis...
ブラインド比較で勝者決定後、スキルとトランスクリプトを読み、勝者を強くした要因を抽出して敗者の改善策を示す。
プロンプトに渡されるパラメータ:
"A" または "B"(ブラインド比較の結果)comparison_result_path の出力を読む各トランスクリプトについて評価:
指示追従度を1〜10で採点し、具体的な問題点を記述。
勝者を優位にした要因を判断:
具体的に記述。必要ならskill/トランスクリプトから引用。
敗者の足を引っ張った要因を判断:
敗者skillを良くするための具体的な提案:
影響の大きい順に並べる。結果を変えうる修正に集中。
{output_path} に構造化された分析結果を保存。
次の構造の JSON ファイルを書く。
{
"comparison_summary": {
"winner": "A",
"winner_skill": "path/to/winner/skill",
"loser_skill": "path/to/loser/skill",
"comparator_reasoning": "比較エージェントが勝者を選んだ理由の要約"
},
"winner_strengths": [
"複数ページ文書を扱うための段階的な指示が明確だった",
"整形エラーを検出できる検証スクリプトが含まれていた",
"OCR が失敗したときのフォールバックが明示されていた"
],
"loser_weaknesses": [
"『文書を適切に処理する』という曖昧な指示があり、挙動がぶれた",
"検証用スクリプトがなく、agent が場当たり的になった",
"OCR 失敗時の指示がなく、代替策を試す前に諦めた"
],
"instruction_following": {
"winner": {
"score": 9,
"issues": [
"任意のログ出力ステップを省略した"
]
},
"loser": {
"score": 6,
"issues": [
"skill の整形テンプレートを使わなかった",
"手順 3 ではなく独自の方法を取った",
"『常に出力を検証する』という指示を見落とした"
]
}
},
"improvement_suggestions": [
{
"priority": "high",
"category": "instructions",
"suggestion": "『文書を適切に処理する』を、1) テキスト抽出 2) セクション識別 3) テンプレートに従った整形、のような明示的な手順に置き換える",
"expected_impact": "挙動のぶれを生んだ曖昧さをなくせる"
},
{
"priority": "high",
"category": "tools",
"suggestion": "勝者 skill の検証アプローチに似た validate_output.py スクリプトを追加する",
"expected_impact": "最終出力の前に整形エラーを検出できる"
},
{
"priority": "medium",
"category": "error_handling",
"suggestion": "フォールバック指示を追加する: 『OCR が失敗したら、1) 解像度を変える 2) 画像前処理を試す 3) 手動抽出する』",
"expected_impact": "難しい文書でも早期失敗しにくくなる"
}
],
"transcript_insights": {
"winner_execution_pattern": "skill を読む → 5 ステップの手順に従う → 検証スクリプトを使う → 2 件の問題を直す → 出力を作る",
"loser_execution_pattern": "skill を読む → 方針が曖昧 → 3 通りの方法を試す → 検証なし → 出力に誤りが残る"
}
}
やること:
やらないこと:
instructions — skillの文章指示の変更tools — 追加/修正するscript・テンプレート・ユーティリティexamples — 追加する入出力例error_handling — 失敗時の扱いに関する指示structure — skill本文の再構成references — 追加する外部ドキュメントや資料analyzerの役割: 複数runにまたがるパターンや異常値を見つけること(スキル改善案を出すことではない)。
すべてのベンチマークrun結果を読み、集計メトリクスだけでは見えないスキル性能のパターンをユーザーが理解できるよう、自由形式メモを作る。
プロンプトに渡されるパラメータ:
各expectationについて、すべてのrunを通して確認:
eval全体を通して確認:
time_seconds・tokens・tool_callsを確認:
自由形式の観察結果を文字列リストとして書く。各メモの要件:
メモは {output_path} に文字列配列のJSONとして保存。
[
"Assertion 'Output is a PDF file' passes 100% in both configurations - may not differentiate skill value",
"Eval 3 shows high variance (50% ± 40%) - run 2 had an unusual failure",
"Without-skill runs consistently fail on table extraction expectations",
"Skill adds 13s average execution time but improves pass rate by 50%"
]
Expert Go code reviewer that analyzes diffs, runs go vet and staticcheck, and checks for idiomatic Go, concurrency bugs, error handling, and security issues.
npx claudepluginhub aokumablue/bluecore --plugin bluecore