Skill

deepx-auto-research

Long-horizon Auto Research 的总编排 skill：指导 agent 自主跑完调研→数据→训练→验证→部署→上线的完整闭环，跨越多天、经历多次失败迭代。补齐 deepx 其它 skill 没有的上层方法论：10 条用失败换来的铁律（现象≠根因 / 训推一致 / 一切可回滚 / 验证用真实路径 …）、8 阶段 SOP、训推一体（train-inference parity）、部署 8 步 SOP、long-horizon 唤醒循环、知识库结构。当用户请求 "auto research"、"自动调研"、"端到端训练上线"、 "long-horizon"、"长周期任务"、"训推一体"、"训推一致"、"版本对齐"、 "部署 SOP"、"上线流程"、"从数据到上线"、"完整闭环"、"自主跑完一个模型" 时使用。即使没明说，只要任务是"自主把一个模型从数据一路送上生产、要跨越多次训练和失败"，就用本 skill 做总编排。边界分诊：租机 / SSH / 释放 GPU → deepx-machine；网盘 ls / 上传 ckpt / 拉预训练权重 → deepx-storage；idle 自动停机 → deepx-recycle；单次实验的 15 节落盘模板 → deepx-experiment。本 skill 把这四者串成完整 long-horizon 闭环，并提供它们之上的心法、SOP 与训推一体规范。

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/deepx:deepx-auto-research

User invocable

Model invocable

Inline context

Default effort

Tool Access

This skill is limited to the following tools:

ReadWriteEditBash

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

**Auto Research** = 一个 agent 自主完成 **调研 → 数据 → 训练 → 验证 → 部署 → 上线**

Supporting Files

assets/arg_kb.pngassets/arg_parity.pngassets/checklist.mdreferences/long-horizon.mdreferences/stage-sop.mdreferences/ten-laws.mdreferences/train-inference-parity.md

SKILL.md

191 lines · ~1.4k tokens

Stats

LanguageGo

Stars0

MaintenanceExcellent

Last CommitMay 22, 2026

Actions

View Source View Plugin View on GitHub View README

Stats

Actions

deepx-auto-research — Long-horizon Auto Research 总编排

Auto Research = 一个 agent 自主完成 调研 → 数据 → 训练 → 验证 → 部署 → 上线 的完整闭环，跨越多天、经历多次失败迭代，最终把一个模型安全送上生产 —— 全程不需要人盯着。

这不是"跑一个训练脚本"。它是 long-horizon 的：一次实验几小时到几天，一个课题要失败 5-10 次才收敛。本 skill 是把整件事做成的总编排。

deepx 已有 4 个分项 skill 各管一段：

分项 skill	管什么
`deepx-machine`	租 GPU / SSH / 远程执行 / 释放机器 / 查余额
`deepx-storage`	网盘 ls / 上传 ckpt / 拉预训练权重
`deepx-recycle`	idle 自动停机 / sweeper
`deepx-experiment`	单次实验的 15 节落盘模板 + 多 agent 协调

本 skill 不重复它们，而是补上它们之上缺的那一层 —— 把零散的"租机 / 训练 / 落盘 / 停机"串成一个能自我推进、能跨越失败、能安全上生产的闭环，并给出心法（10 铁律）、阶段 SOP、训推一体规范、部署 SOP、long-horizon 执行模式。

核心循环

Auto Research 核心循环

[调研] → [假设] → [数据] → [训练] → [验证] → [部署] → [监控] → [落盘] → (回到调研)
                                       │
                                  不达标↑ 回到调研/假设

要点：

验证不达标会把你打回调研 —— 这是常态，不是异常。
每一圈都要落盘，失败也落盘 —— 失败的 insight 比成功的更值钱。
循环可能跑很多圈 —— long-horizon 的本质。要有耐心，也要知道何时升级求助。

10 条铁律（用失败换来的）

跑 Auto Research 前先内化这 10 条。违反任何一条 = 重蹈别人踩过的坑。完整解释 + 每条背后的真实失败案例见 references/ten-laws.md。

现象 ≠ 根因 —— 测到现象别急着下结论，先列全部候选根因，再设计能区分它们的实验。
根因挖到底 —— 黑盒依赖就去读源码，别猜。"我觉得是 X" 不是结论。
训推一致 —— 训练数据的分布 / 坐标系 / 预处理，必须逐字节等于推理输入。
验证用真实路径 + 多样本 —— 别用单 fixture，别用离线近似，走真实生产路径。
一切可回滚 —— 碰生产前时间戳备份，永远留一条命令的 rollback。
数据 provenance —— 临时 raw 数据拿到就永久备份 + 写来源文档。
落盘即时 —— 每个发现立刻写 insight，别攒。落"为什么"不落"做了什么"。
监控要省 —— 长任务用唤醒循环不用 sleep 轮询；训完即释放资源。
不被小样本波动骗 —— 指标突变先做显著性检验，再决定回滚。
自己的痕迹自己清 —— 收尾扫所有碰过的机器，清理临时文件。

阶段编排（8 阶段 + 调哪个子 skill）

每阶段的具体做法见 references/stage-sop.md。

阶段	一句话	用哪个 skill
1 调研	把问题变成可验证的假设 + 定门禁线 + 定 baseline	本 skill
2 数据预处理	训推一致是铁律；分布要亲手量；产物存持久盘	`deepx-storage` 存产物
3 训练	环境固化；warm-start 优先；early-stop；并行网格	`deepx-machine` 租机 / `deepx-recycle` 停机
4 验证	e2e gate；多样本统计；真实路径；视觉抽检	本 skill
5 后处理	后处理也要训推一致；跨版本通常不动	本 skill
6 部署上线	8 步 SOP：备份→换→重启→sanity→失败即回滚	本 skill（见下）
7 训推一体	模型训练见到的世界 = 生产见到的世界	本 skill
8 监控	long-horizon 唤醒循环	本 skill
— 落盘	每次实验一份记录	`deepx-experiment`

关键边界：「租机 / SSH / 释放」永远走 deepx-machine，不要在本 skill 里重新发明；「上传 ckpt / 拉权重」走 deepx-storage；「自动停机」走 deepx-recycle；「单次实验的 15 节模板」走 deepx-experiment。本 skill 负责 把它们按正确顺序串起来，并在 deploy / 训推一体 / long-horizon 这三块补上它们没有的内容。

知识库结构 —— long-horizon 的"长期记忆"

知识库结构

Long-horizon 最大的敌人是记忆丢失（上下文会爆、agent 会换、机器会回收）。解药是一个结构化、落在 git 里的知识库：

文件	职责
`STATUS.md`	总入口。当前线上版本 / 根因摘要 / 回滚信息。接手先读这个
`insights/N-*.md`	一个根因 / 一个教训 / 一次失败的完整记录。重为什么
`DEPLOY_LOG.md`	每次部署：备份时间戳 / 改了什么 / sanity 结果 / rollback 命令
`scripts/`	代码的权威副本（机器会回收、网盘可能丢，git 是唯一权威）
`training-history/`	epoch 级训练曲线，用来复盘和判 early-stop

insight 写法：文件名带递增编号；开头一句话结论 + 日期；主体是 现象 → 候选根因 → 怎么区分 → 真根因（带证据：源码行号 / 实验数据）→ 修法。 失败的 insight 也要写 —— "试了 X 不行因为 Y" 能让下一个 agent 不再试 X。

训推一体（Train-Inference Parity）

训推一体 / 版本对齐

Auto Research 最隐蔽、最致命的一环：模型训练时见到的世界，必须和它在生产时见到的世界完全一样。任何不一致都会让"验证通过"变成"上线翻车"。

最快的翻车方式：训练数据某个预处理步骤（降采样比例 / 坐标系朝向 / 归一化）和推理侧不一致 —— 验证指标好看（因为验证也用了训练那套），一上线就崩。

要逐项对齐：预处理、输入契约、坐标系朝向、后处理、配置开关。完整规范见 references/train-inference-parity.md。

部署上线 —— 8 步 SOP

部署是整个流程风险最高的一步。标准 8 步，一步都不能省：

dry-run —— 跑一次当前生产的 sanity，记录现状作基线。
备份 —— 时间戳备份所有要改的文件，记下时间戳。
部署 —— 新 ckpt / 新代码拷到生产位置。
语法自检 —— 部署的代码先 AST parse / py_compile。
重启服务。
健康检查 —— 轮询 healthz 直到 200。
sanity —— 走真实路径（HTTP），模拟生产输入，比 GT，达标才算成功。
失败立即 rollback —— 任何一步失败，用第 2 步备份一条命令回滚。

铁则：生产推理机永不直接拿来跑训练 / 实验（训练永远用 deepx-machine 租临时机）；每次部署完立刻写 DEPLOY_LOG.md。

Long-horizon 执行模式

训练几小时，agent 不能干等。用唤醒循环：启动长任务后设一个定时唤醒（~1 小时级），唤醒时查进度→判断（继续 / early-stop / 完成 / 失败）→再设唤醒。唤醒的 prompt 必须自包含（机器地址、日志路径、判断标准、下一步）。

失败处理三分法：可自愈的（SSH 端口变了、网盘抖动）→ 自动重试；需要决策的（花钱 / 碰生产 / 不可逆）→ 停下问人；挖不动的根因 → 老实说"还没挖到"，列出已排除和待查的，求助 —— 不要继续输出半成品结论。

完整模式（唤醒 prompt 怎么写、间隔怎么定、资源纪律）见 references/long-horizon.md。

检查清单

每个阶段的可勾选 checklist 见 assets/checklist.md —— 开始课题前、预处理后、训练后、验证后、上线前、收尾，逐项过。上线前那一组尤其不能跳。

怎么用本 skill

人类新人：通读本文 + 4 个 references，建立心智模型。
Agent：把本 skill 作为 long-horizon 任务的总纲。按「阶段编排」表推进，每阶段切到对应的子 skill 执行，按 assets/checklist.md 自检，按「核心循环」在验证不达标时回到调研。每个发现落盘成 insight。

一次完整的 Auto Research（牙列分割 v4：从验证 NO-GO，到挖出两个根因〔训推分布不匹配 + 黑盒 SDK 假配对〕，到 4 套模型全部安全上线）的复盘见 references/stage-sop.md 末尾的案例。

deepx-auto-research

Invocation

Tool Access

Context Preview

Supporting Files

SKILL.md

deepx-auto-research

Invocation

Tool Access

Context Preview

Supporting Files

SKILL.md

deepx-auto-research — Long-horizon Auto Research 总编排

核心循环

10 条铁律（用失败换来的）

阶段编排（8 阶段 + 调哪个子 skill）

知识库结构 —— long-horizon 的"长期记忆"

训推一体（Train-Inference Parity）

部署上线 —— 8 步 SOP

Long-horizon 执行模式

检查清单

怎么用本 skill

Similar Skills

deepx-auto-research — Long-horizon Auto Research 总编排

核心循环

10 条铁律（用失败换来的）

阶段编排（8 阶段 + 调哪个子 skill）

知识库结构 —— long-horizon 的"长期记忆"

训推一体（Train-Inference Parity）

部署上线 —— 8 步 SOP

Long-horizon 执行模式

检查清单

怎么用本 skill

Similar Skills