From forensic-audit
执行本福特定律(Benford's Law)检验——通过分析数据集中数字首位/前两位数字的分布是否符合自然规律, 识别可能存在人为操纵的异常数据。适用于大样本数值数据, 尤其是会计/财务数据(发票金额、报销金额、合同金额等)。
How this skill is triggered — by the user, by Claude, or both
Slash command
/forensic-audit:benford-analysis [上传含数值型数据的文件(CSV/Excel),或指定要检验的数据表][上传含数值型数据的文件(CSV/Excel),或指定要检验的数据表]The summary Claude sees in its skill listing — used to decide when to auto-load this skill
本福特定律指出,在自然界和日常生活中的数值数据,其首位数字 d(1~9)出现的概率遵循对数分布:
本福特定律指出,在自然界和日常生活中的数值数据,其首位数字 d(1~9)出现的概率遵循对数分布:
首位数字 1:P=30.1% 首位数字 2:P=17.6% 首位数字 3:P=12.5%
首位数字 4:P=9.7% 首位数字 5:P=7.9% 首位数字 6:P=6.7%
首位数字 7:P=5.8% 首位数字 8:P=5.1% 首位数字 9:P=4.6%
当实际分布显著偏离本福特定律时,可能意味着数据被人为操纵。 注意:顺应分布的检验 —— 偏离 ≠ 舞弊确证,只是指示了需要进一步调查。
本福特定律适用于:
不适用于:
如果数据不满足适用条件 → 提示用户使用替代方法(transaction-analysis 或 red-flags)。
数据来源:[ERP 系统导出 / 用户上传 / 银行流水导入]
数据类型:[发票金额 / 费用报销 / 付款记录 / 合同金额 / ……]
记录总数:N 条
有效检验记录数:N' 条(剔除 0、负数、不足两位数的值)
如连接了 ERP MCP → 自动获取序时账或科目明细账作为数据源。
┌─ 首位数字分布 ──────────────────────────────────────────┐
│ 数字 │ 实际频数 │ 实际占比 │ 预期占比 │ 差异(实际-预期) │ Z 统计量 │
│ 1 │ 850 │ 34.2% │ 30.1% │ +4.1% │ 3.85** │
│ 2 │ 480 │ 19.3% │ 17.6% │ +1.7% │ 1.82 │
│ 3 │ 310 │ 12.5% │ 12.5% │ 0.0% │ 0.02 │
│ 4 │ 220 │ 8.8% │ 9.7% │ -0.9% │ 1.15 │
│ 5 │ 180 │ 7.2% │ 7.9% │ -0.7% │ 0.82 │
│ 6 │ 135 │ 5.4% │ 6.7% │ -1.3% │ 1.68 │
│ 7 │ 110 │ 4.4% │ 5.8% │ -1.4% │ 1.93 │
│ 8 │ 95 │ 3.8% │ 5.1% │ -1.3% │ 1.89 │
│ 9 │ 105 │ 4.2% │ 4.6% │ -0.4% │ 0.62 │
└──────────────────────────────────────────────────────────┘
卡方检验:
χ² = Σ((Observed - Expected)² / Expected)
= 15.83
自由度:8
临界值(α=0.05):15.51
临界值(α=0.01):20.09
结论:χ²(8) = 15.83 > 15.51 → ⚠ 在 0.05 水平上显著偏离本福特定律
< 20.09 → 但在 0.01 水平上不显著
Z 检验(每项数字的显著性):
|Z| > 1.96 → 在 0.05 水平上显著(标记 *)
|Z| > 2.58 → 在 0.01 水平上显著(标记 **)
|Z| > 3.29 → 在 0.001 水平上显著(标记 ***)
首位数字 1 的 Z 值 = 3.85 → ***(高度显著 — 数字 1 的频数远高于预期)
MAD(平均绝对偏差):
MAD = Σ|实际占比 - 预期占比| / 9 = 1.76%
合规界限:
MAD ≤ 0.004 → 高度符合
MAD ≤ 0.008 → 基本符合
MAD ≤ 0.015 → 勉强可接受
MAD > 0.015 → 偏离本福特定律 ⚠
本例 MAD = 1.76% > 1.5% → 偏离 ⚠
如果首位数字已经发现显著偏离 → 进一步分析前两位数字分布(01~99)。
前两位数字 | 实际频数 | 预期频数 | 差异 | 标记
10 | 95 | 77.3 | +17.7 | *
11 | 82 | 70.5 | +11.5 | *
12 | 60 | 64.8 | -4.8 |
13 | 55 | 59.9 | -4.9 |
...
99 | 8 | 4.6 | +3.4 |
前两位数字分析的常见舞弊模式:
对偏离显著的数字位 → 反向提取对应的实际交易记录:
┌─ 畸点交易明细 ─────────────────────────────────────────────┐
│ 首位数字异常集中(实际 34.2% vs 预期 30.1%) │
│ │
│ 选取首位为 1 的交易: │
│ 日期 │ 凭证号 │ 摘要 │ 金额(元) │
│ 2024-12-28 │ P-2401-0022 │ 销售-客户A │ 1,200,000.00 │
│ 2024-12-29 │ P-2401-0035 │ 销售-客户B │ 1,050,000.00 │
│ 2024-12-30 │ P-2401-0041 │ 销售-客户C │ 1,500,000.00 │
│ 2024-12-31 │ P-2401-0056 │ 销售-客户D │ 1,800,000.00 │
│ ... │ ... │ ... │ ... │
│ │
│ ⚠ 关注:12 月底集中出现大量¥1,000,000 等级的交易 │
│ → 建议通过 /forensic-audit:transaction-analysis 深入分析 │
└──────────────────────────────────────────────────────────────┘
[案件编号]_BENFORD_[日期].md — 本福特定律检验报告
├── 一、数据概况(来源、记录数、适用范围评价)
├── 二、首位数字分布表 + 柱状对比图(文本)
├── 三、统计检验结果(χ²、Z、MAD)
├── 四、前两位数字分析(如适用)
├── 五、异常交易提取清单
├── 六、结论与建议
└── ⚠️ 调查工作记录 — 保密
如果提供多个期间或多种数据类型,可做横向对比:
┌─ 多数据集 Benford 对比 ─────────────────────────────────────┐
│ 数据集 │ MAD │ χ² │ 结论 │
│ 2024 年销售发票 │ 1.76% │ 15.83 │ ⚠ 偏离 │
│ 2023 年销售发票 │ 0.89% │ 8.12 │ ✓ 基本符合 │
│ 2024 年采购发票 │ 0.62% │ 5.47 │ ✓ 基本符合 │
│ 2024 年费用报销 │ 3.12% │ 28.45 │ ⚠ 显著偏离—需关注 │
└──────────────────────────────────────────────────────────────┘
⚠️ 本福特定律检验是统计方法,不是舞弊检测方法。 偏离本福特定律的可能原因包括:数据本身特性、样本量不足、数据截断/四舍五入、 真实的边界效应等,不一定是舞弊。顺应分布的检验也不意味着没有舞弊—— 精心设计的舞弊可以很好地拟合本福特定律。
本检验的结论应作为进一步调查的引导,而非独立的舞弊证据。
Creates, edits, and optimizes skills for Claude Code, including drafting, evaluating with test prompts, iterating on performance, and improving skill descriptions for better triggering accuracy.
npx claudepluginhub lm93129/claude-for-audit --plugin forensic-audit