extract-testcase | agent-benchmark

Stats

Actions

Tags

extract-testcase | agent-benchmark

extract-testcase

从对话历史中提取理论物理 benchmark test case。

输入

用户提供一个或多个 JSONL 对话历史文件路径作为参数: $ARGUMENTS

工作流

Step 1: 解析对话

使用 Python 脚本解析对话历史：

python3 -c "
import json, sys

def _read_jsonl(path):
    lines = []
    with open(path) as f:
        for line in f:
            line = line.strip()
            if line:
                lines.append(json.loads(line))
    return lines

def detect_format(lines):
    for entry in lines:
        t = entry.get('type', '')
        if t in ('user', 'assistant') and 'message' in entry:
            return 'claude_code'
        if t in ('response_item', 'session_meta'):
            return 'codex'
    raise ValueError('Cannot detect conversation format')

def _parse_claude_code(lines):
    msgs = []
    for entry in lines:
        t = entry.get('type', '')
        if t not in ('user', 'assistant'):
            continue
        content = entry.get('message', {}).get('content')
        if content is None:
            continue
        if isinstance(content, str):
            msgs.append({'role': t, 'text': content})
        elif isinstance(content, list):
            parts, has_only_tool = [], True
            for block in content:
                if isinstance(block, dict):
                    if block.get('type') == 'text':
                        parts.append(block['text']); has_only_tool = False
                elif isinstance(block, str):
                    parts.append(block); has_only_tool = False
            if parts and not has_only_tool:
                msgs.append({'role': t, 'text': chr(10).join(parts)})
    return msgs

def _parse_codex(lines):
    msgs = []
    for entry in lines:
        if entry.get('type') != 'response_item':
            continue
        payload = entry.get('payload', {})
        role = payload.get('role')
        if role not in ('user', 'assistant'):
            continue
        parts = []
        for block in payload.get('content', []):
            if isinstance(block, dict) and block.get('type') in ('input_text', 'output_text'):
                parts.append(block['text'])
        if parts:
            msgs.append({'role': role, 'text': chr(10).join(parts)})
    return msgs

def parse_conversation(*paths):
    all_msgs = []
    for p in paths:
        lines = _read_jsonl(p)
        fmt = detect_format(lines)
        all_msgs.extend(_parse_claude_code(lines) if fmt == 'claude_code' else _parse_codex(lines))
    return all_msgs

def format_messages(msgs):
    parts = []
    for m in msgs:
        label = 'User' if m['role'] == 'user' else 'Assistant'
        parts.append(f\"{label}:\n{m['text']}\")
    return (chr(10)*2 + '---' + chr(10)*2).join(parts)

paths = '''$ARGUMENTS'''.strip().split()
if not paths:
    print('Error: 请提供至少一个 JSONL 文件路径', file=sys.stderr)
    sys.exit(1)

messages = parse_conversation(*paths)
print(format_messages(messages))
"

将上述脚本的输出保存下来供后续分析使用。

Step 2: 分析对话内容

阅读清洗后的对话文本，识别其中的物理问题和研究任务。判断：

问题数量: 对话中包含几个独立的物理问题/任务？
任务类型: 每个问题属于哪种类型？
- concept — 概念理解（对称性、相变、重整化等）
- derivation — 理论推导（从假设到结果的解析推导）
- literature — 文献理解（论文中的物理论证）
- simulation — 模拟代码（蒙特卡洛、分子动力学等）
- transfer — 方法迁移（将方法适配到另一个模型）
- multi_step — 综合任务（涉及多种能力的复合任务）
复杂度判断:
- 如果是多个对话文件，默认合并为一个 composite test case
- 如果用户指定分别提取，则生成多个独立 test case
- 如果单个对话包含紧密关联的多步任务，使用 composite 模板

Step 3: 生成 YAML

根据判断结果，为每个 test case 生成 YAML 文件。

单问题模板 (question):

id: "Q_XXX"
title: "简明标题"
category: "concept|derivation|literature|simulation|transfer|multi_step"
difficulty: "L1|L2|L3"
test_mode: "llm_single|agent_multi_step"

problem: |
  从对话中提炼的核心问题描述。
  包含足够背景信息，但不包含答案。
  明确约束条件和期望输出格式。

input: |
  对话中提供的公式、代码片段、参数等辅助材料。
  如无则删除此字段。

context_files:
  - file: "参考文件名.md"
    instruction: "阅读指引"

source:
  research_area: "研究领域"
  when_encountered: "YYYY-MM"
  real_scenario: "从对话中推断的实际场景"

tags: ["tag1", "tag2"]

复合任务模板 (composite):

id: "COMP_XXX"
title: "任务标题"
type: "composite"
category: "multi_step"
difficulty: "L3"

problem: |
  完整的复合任务描述。明确约束条件和期望输出格式。

context_files:
  - file: "参考文件名.md"
    instruction: "阅读指引"

steps:
  - id: "step1"
    title: "子任务标题"
    problem: |
      子任务描述。
    test_mode: "llm_single|agent_multi_step"
    timeout: 600

  - id: "step2"
    title: "子任务标题"
    problem: |
      子任务描述。
    handoff:
      from: "step1"
      inject: "{{step1.answer}}"
      files: ["output_file.py"]
    test_mode: "agent_multi_step"
    timeout: 900

tags: ["tag1", "composite"]

提取规则

不生成 expected_output 和 evaluation 字段（这些后续人工添加）
problem 字段应是从对话中提炼的干净问题描述，不包含模型的回答
input 字段放对话中提供给模型的辅助材料（公式、代码等）
如果对话中涉及参考文件，在 context_files 中标注
difficulty 判断标准:
- L1: 教科书中存在或被广泛讨论的知识
- L2: 需要根据给定材料进行简单推理
- L3: 复杂科研任务，需要复杂推理
test_mode 判断: 如果问题需要写代码或多步操作，用 agent_multi_step；纯理论问答用 llm_single

Step 4: 保存文件

将生成的 YAML 保存到 examples/ 目录
文件名格式: examples/<id小写>.yaml 或 examples/<id小写>/task.yaml（如需参考材料）
如果需要参考材料目录，创建 examples/<id小写>/references/ 并在其中放置参考文件

Step 5: 确认

向用户展示提取结果摘要：

提取了几个 test case
每个的 id、title、category、difficulty
保存路径
提醒用户后续需要人工添加 expected_output 和 evaluation 字段