benford-analysis | forensic-audit

Stats

Actions

Tags

benford-analysis | forensic-audit

/benford-analysis

原理说明

本福特定律指出，在自然界和日常生活中的数值数据，其首位数字 d（1~9）出现的概率遵循对数分布：

首位数字 1：P=30.1%    首位数字 2：P=17.6%    首位数字 3：P=12.5%
首位数字 4：P=9.7%     首位数字 5：P=7.9%     首位数字 6：P=6.7%
首位数字 7：P=5.8%     首位数字 8：P=5.1%     首位数字 9：P=4.6%

当实际分布显著偏离本福特定律时，可能意味着数据被人为操纵。注意：顺应分布的检验 —— 偏离 ≠ 舞弊确证，只是指示了需要进一步调查。

适用条件

本福特定律适用于：

✅ 大样本（>500 条有效记录）
✅ 自然生成的多位数数值数据
✅ 无固定上下限的数据（有自然数量级的差异）
✅ 非人为编号/编码的数据

不适用于：

❌ 样本量太小（<100 条）
❌ 固定金额（如所有费用报销均为固定标准）
❌ 人为编号（如发票号码、合同编号、订单号）
❌ 取值受限的数据（如特定区间的百分比）

如果数据不满足适用条件 → 提示用户使用替代方法（transaction-analysis 或 red-flags）。

工作流

Step 1：加载数据

数据来源：[ERP 系统导出 / 用户上传 / 银行流水导入]
数据类型：[发票金额 / 费用报销 / 付款记录 / 合同金额 / ……]
记录总数：N 条
有效检验记录数：N' 条（剔除 0、负数、不足两位数的值）

如连接了 ERP MCP → 自动获取序时账或科目明细账作为数据源。

Step 2：计算实际分布

┌─ 首位数字分布 ──────────────────────────────────────────┐
│ 数字 │ 实际频数 │ 实际占比 │ 预期占比 │ 差异(实际-预期) │ Z 统计量 │
│ 1    │ 850      │ 34.2%   │ 30.1%   │ +4.1%          │ 3.85**  │
│ 2    │ 480      │ 19.3%   │ 17.6%   │ +1.7%          │ 1.82    │
│ 3    │ 310      │ 12.5%   │ 12.5%   │ 0.0%           │ 0.02    │
│ 4    │ 220      │ 8.8%    │ 9.7%    │ -0.9%          │ 1.15    │
│ 5    │ 180      │ 7.2%    │ 7.9%    │ -0.7%          │ 0.82    │
│ 6    │ 135      │ 5.4%    │ 6.7%    │ -1.3%          │ 1.68    │
│ 7    │ 110      │ 4.4%    │ 5.8%    │ -1.4%          │ 1.93    │
│ 8    │ 95       │ 3.8%    │ 5.1%    │ -1.3%          │ 1.89    │
│ 9    │ 105      │ 4.2%    │ 4.6%    │ -0.4%          │ 0.62    │
└──────────────────────────────────────────────────────────┘

Step 3：统计检验

卡方检验：

χ² = Σ((Observed - Expected)² / Expected)
   = 15.83

自由度：8
临界值（α=0.05）：15.51
临界值（α=0.01）：20.09

结论：χ²(8) = 15.83 > 15.51 → ⚠ 在 0.05 水平上显著偏离本福特定律
                            < 20.09 → 但在 0.01 水平上不显著

Z 检验（每项数字的显著性）：

|Z| > 1.96  → 在 0.05 水平上显著（标记 *）
|Z| > 2.58  → 在 0.01 水平上显著（标记 **）
|Z| > 3.29  → 在 0.001 水平上显著（标记 ***）

首位数字 1 的 Z 值 = 3.85 → ***（高度显著 — 数字 1 的频数远高于预期）

MAD（平均绝对偏差）：

MAD = Σ|实际占比 - 预期占比| / 9 = 1.76%

合规界限：
  MAD ≤ 0.004 → 高度符合
  MAD ≤ 0.008 → 基本符合
  MAD ≤ 0.015 → 勉强可接受
  MAD > 0.015 → 偏离本福特定律 ⚠

本例 MAD = 1.76% > 1.5% → 偏离 ⚠

Step 4：前两位数字分布（高级）

如果首位数字已经发现显著偏离 → 进一步分析前两位数字分布（01~99）。

前两位数字 | 实际频数 | 预期频数 | 差异  | 标记
10        | 95       | 77.3    | +17.7 | *
11        | 82       | 70.5    | +11.5 | *
12        | 60       | 64.8    | -4.8  |
13        | 55       | 59.9    | -4.9  |
...
99        | 8        | 4.6     | +3.4  |

前两位数字分析的常见舞弊模式：

数字 10-19 偏多 → 可能有人为设置的阈值（如将金额控制在¥100 或¥1,000 以下）
数字 59/60/70 偏聚 → 可能存在取整行为（将数字凑整到附近的整数）
特定数字频繁出现 → 可能与某类特定交易有关

Step 5：异常交易提取

对偏离显著的数字位 → 反向提取对应的实际交易记录：

┌─ 畸点交易明细 ─────────────────────────────────────────────┐
│ 首位数字异常集中（实际 34.2% vs 预期 30.1%）                │
│                                                             │
│ 选取首位为 1 的交易：                                         │
│ 日期       │ 凭证号         │ 摘要         │ 金额(元)         │
│ 2024-12-28 │ P-2401-0022   │ 销售-客户A   │ 1,200,000.00    │
│ 2024-12-29 │ P-2401-0035   │ 销售-客户B   │ 1,050,000.00    │
│ 2024-12-30 │ P-2401-0041   │ 销售-客户C   │ 1,500,000.00    │
│ 2024-12-31 │ P-2401-0056   │ 销售-客户D   │ 1,800,000.00    │
│ ...        │ ...           │ ...         │ ...              │
│                                                             │
│ ⚠ 关注：12 月底集中出现大量¥1,000,000 等级的交易             │
│ → 建议通过 /forensic-audit:transaction-analysis 深入分析     │
└──────────────────────────────────────────────────────────────┘

Step 6：输出

[案件编号]_BENFORD_[日期].md — 本福特定律检验报告
├── 一、数据概况（来源、记录数、适用范围评价）
├── 二、首位数字分布表 + 柱状对比图（文本）
├── 三、统计检验结果（χ²、Z、MAD）
├── 四、前两位数字分析（如适用）
├── 五、异常交易提取清单
├── 六、结论与建议
└── ⚠️ 调查工作记录 — 保密

多数据集对比（可选）

如果提供多个期间或多种数据类型，可做横向对比：

┌─ 多数据集 Benford 对比 ─────────────────────────────────────┐
│ 数据集         │ MAD     │ χ²     │ 结论                   │
│ 2024 年销售发票 │ 1.76%  │ 15.83  │ ⚠ 偏离                │
│ 2023 年销售发票 │ 0.89%  │ 8.12   │ ✓ 基本符合             │
│ 2024 年采购发票 │ 0.62%  │ 5.47   │ ✓ 基本符合             │
│ 2024 年费用报销 │ 3.12%  │ 28.45  │ ⚠ 显著偏离—需关注       │
└──────────────────────────────────────────────────────────────┘

局限性声明

⚠️ 本福特定律检验是统计方法，不是舞弊检测方法。 偏离本福特定律的可能原因包括：数据本身特性、样本量不足、数据截断/四舍五入、真实的边界效应等，不一定是舞弊。顺应分布的检验也不意味着没有舞弊—— 精心设计的舞弊可以很好地拟合本福特定律。

本检验的结论应作为进一步调查的引导，而非独立的舞弊证据。