Skill

data-collect

From data-analysis

データ要件定義・収集・カタログ化を行います。「どのデータが必要か整理したい」「データを集めたい」「データカタログを作りたい」と言われたら使用してください。

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/data-analysis:data-collect

User invocable

Model invocable

Inline context

Default effort

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

---

SKILL.md

139 lines · ~600 tokens

Stats

Parent stars0

MaintenanceGood

Last CommitMar 4, 2026

Actions

View Source View Plugin View on GitHub View README

Stats

Actions

データ要件定義・収集スキル

前提: analysis_context.md を必ず読み込んでから実行すること【最重要】

1. KPIからのデータ要件の逆算

analysis_context.md に記録されたKGI/KPIを起点に、必要なデータを逆算する:

KGI: ○○の向上
 ↓ 測定に必要なデータ
KPI-1: ○○率 → データA（○○テーブルの○○カラム）
KPI-2: ○○数 → データB（○○ログ）
 ↓ 分析に必要な特徴量
特徴量X → データC × データD を結合

2. データソースカタログの作成

各データソースについて以下を記録する:

項目	内容
データソース名
出所・収集方法
収集頻度	リアルタイム / 日次 / 週次 / 月次
形式	CSV / DB / API / 手入力
件数（概算）
期間範囲
主キー
担当者・連絡先
アクセス権限
鮮度・品質懸念

3. データ取得スクリプト

import pandas as pd

# CSVの場合
df = pd.read_csv('data/○○.csv', encoding='utf-8')

# エンコーディングエラーの場合
# df = pd.read_csv('data/○○.csv', encoding='cp932')

# 基本確認
print(f"件数: {len(df):,}")
print(f"カラム数: {len(df.columns)}")
print(df.dtypes)
print(df.head())

4. データ収集の実現可能性チェック

各データソースについて:

アクセス権限が確保できるか
取得コスト（時間・費用）は許容範囲か
データの鮮度は分析目的に合っているか
個人情報・機密情報が含まれる場合の処理方針が決まっているか
データ収集期間は分析に必要な期間をカバーするか

5. データギャップ分析

必要なデータ	入手可否	代替手段	影響
○○データ	○ / △ / ×

不足データがある場合の対処:

代替変数の利用（その限界を必ず明記）
外部データソースの活用
収集期間の延長
スコープの縮小を検討

6. サンプリング設計（必要な場合）

母集団を代表するサンプルを得るための設計:

単純無作為抽出 / 層化抽出 / クラスター抽出の選択と根拠
選択バイアスのリスクと対策【GL-7】
サンプルサイズの妥当性確認【GL-5】

7. Next Step の提示

データが揃った場合   → /data-analysis:data-integrate（複数ソースの統合）
単一ソースの場合     → /data-analysis:data-explore（データ探索）

📝 実行ログの記録（必須）

analysis_context.md の「データソース情報」セクションを更新し、「12. 実行ログ」末尾に以下のテンプレートを埋めて追記すること。

### YYYY-MM-DD HH:MM | data-collect
| 項目 | 内容 |
|------|------|
| ステータス | 完了 / 一部完了 / 中断 |
| 実施内容 | [データカタログ化 / 要件定義 / 収集方法確定] |
| データソース数 | [件数] |
| 取得済みデータ | [ファイル名・件数・期間] |
| 不足データ | [未取得データ名・取得予定・合意状況] |
| 品質懸念 | [欠損・重複・形式不統一等] |
| バイアスリスク | [選択バイアス・サバイバーシップ等] |
| 申し送り | [統合・EDA時に注意すべき点] |

✅ 完了後: 次の推奨アクション（必須）

上記の実行が完了したら、必ず以下をユーザーに提示すること。

✅ data-collect が完了しました 📋 analysis_context.md の「データソース情報」を更新しました

▶ 次の推奨ステップ（単一ソースの場合）:

/data-analysis:data-explore

収集したデータの全体像・品質・分布を把握するEDAを実施します

📌 状況別の選択肢:

複数データソースを結合する必要がある場合 → /data-analysis:data-integrate

現在の推奨フロー:

data-context → data-define → data-collect ✅ → data-explore → data-clean → data-feature → data-model → data-interpret

$ARGUMENTS

data-collect

Invocation

Context Preview

SKILL.md

data-collect

Invocation

Context Preview

SKILL.md

データ要件定義・収集スキル

前提: analysis_context.md を必ず読み込んでから実行すること【最重要】

1. KPIからのデータ要件の逆算

2. データソースカタログの作成

3. データ取得スクリプト

4. データ収集の実現可能性チェック

5. データギャップ分析

6. サンプリング設計（必要な場合）

7. Next Step の提示

📝 実行ログの記録（必須）

✅ 完了後: 次の推奨アクション（必須）

Similar Skills

データ要件定義・収集スキル

前提: analysis_context.md を必ず読み込んでから実行すること【最重要】

1. KPIからのデータ要件の逆算

2. データソースカタログの作成

3. データ取得スクリプト

4. データ収集の実現可能性チェック

5. データギャップ分析

6. サンプリング設計（必要な場合）

7. Next Step の提示

📝 実行ログの記録（必須）

✅ 完了後: 次の推奨アクション（必須）

Similar Skills