From deepx
Long-horizon Auto Research 的总编排 skill:指导 agent 自主跑完 调研→数据→训练→验证→部署→上线 的完整闭环,跨越多天、经历多次失败迭代。 补齐 deepx 其它 skill 没有的上层方法论:10 条用失败换来的铁律 (现象≠根因 / 训推一致 / 一切可回滚 / 验证用真实路径 …)、8 阶段 SOP、 训推一体(train-inference parity)、部署 8 步 SOP、long-horizon 唤醒循环、 知识库结构。当用户请求 "auto research"、"自动调研"、"端到端训练上线"、 "long-horizon"、"长周期任务"、"训推一体"、"训推一致"、"版本对齐"、 "部署 SOP"、"上线流程"、"从数据到上线"、"完整闭环"、"自主跑完一个模型" 时使用。即使没明说,只要任务是"自主把一个模型从数据一路送上生产、要跨越 多次训练和失败",就用本 skill 做总编排。 边界分诊:租机 / SSH / 释放 GPU → deepx-machine;网盘 ls / 上传 ckpt / 拉预训练权重 → deepx-storage;idle 自动停机 → deepx-recycle;单次实验的 15 节落盘模板 → deepx-experiment。本 skill 把这四者串成完整 long-horizon 闭环,并提供它们之上的心法、SOP 与训推一体规范。
How this skill is triggered — by the user, by Claude, or both
Slash command
/deepx:deepx-auto-researchThis skill is limited to the following tools:
The summary Claude sees in its skill listing — used to decide when to auto-load this skill
**Auto Research** = 一个 agent 自主完成 **调研 → 数据 → 训练 → 验证 → 部署 → 上线**
Auto Research = 一个 agent 自主完成 调研 → 数据 → 训练 → 验证 → 部署 → 上线 的完整闭环,跨越多天、经历多次失败迭代,最终把一个模型安全送上生产 —— 全程不需要 人盯着。
这不是"跑一个训练脚本"。它是 long-horizon 的:一次实验几小时到几天,一个课题 要失败 5-10 次才收敛。本 skill 是把整件事做成的总编排。
deepx 已有 4 个分项 skill 各管一段:
| 分项 skill | 管什么 |
|---|---|
deepx-machine | 租 GPU / SSH / 远程执行 / 释放机器 / 查余额 |
deepx-storage | 网盘 ls / 上传 ckpt / 拉预训练权重 |
deepx-recycle | idle 自动停机 / sweeper |
deepx-experiment | 单次实验的 15 节落盘模板 + 多 agent 协调 |
本 skill 不重复它们,而是补上它们之上缺的那一层 —— 把零散的"租机 / 训练 / 落盘 / 停机"串成一个能自我推进、能跨越失败、能安全上生产的闭环,并给出心法 (10 铁律)、阶段 SOP、训推一体规范、部署 SOP、long-horizon 执行模式。

[调研] → [假设] → [数据] → [训练] → [验证] → [部署] → [监控] → [落盘] → (回到调研)
│
不达标↑ 回到调研/假设
要点:
跑 Auto Research 前先内化这 10 条。违反任何一条 = 重蹈别人踩过的坑。
完整解释 + 每条背后的真实失败案例见 references/ten-laws.md。
每阶段的具体做法见 references/stage-sop.md。
| 阶段 | 一句话 | 用哪个 skill |
|---|---|---|
| 1 调研 | 把问题变成可验证的假设 + 定门禁线 + 定 baseline | 本 skill |
| 2 数据预处理 | 训推一致是铁律;分布要亲手量;产物存持久盘 | deepx-storage 存产物 |
| 3 训练 | 环境固化;warm-start 优先;early-stop;并行网格 | deepx-machine 租机 / deepx-recycle 停机 |
| 4 验证 | e2e gate;多样本统计;真实路径;视觉抽检 | 本 skill |
| 5 后处理 | 后处理也要训推一致;跨版本通常不动 | 本 skill |
| 6 部署上线 | 8 步 SOP:备份→换→重启→sanity→失败即回滚 | 本 skill(见下) |
| 7 训推一体 | 模型训练见到的世界 = 生产见到的世界 | 本 skill |
| 8 监控 | long-horizon 唤醒循环 | 本 skill |
| — 落盘 | 每次实验一份记录 | deepx-experiment |
关键边界:「租机 / SSH / 释放」永远走 deepx-machine,不要在本 skill 里
重新发明;「上传 ckpt / 拉权重」走 deepx-storage;「自动停机」走
deepx-recycle;「单次实验的 15 节模板」走 deepx-experiment。本 skill 负责
把它们按正确顺序串起来,并在 deploy / 训推一体 / long-horizon 这三块补上
它们没有的内容。

Long-horizon 最大的敌人是记忆丢失(上下文会爆、agent 会换、机器会回收)。 解药是一个结构化、落在 git 里的知识库:
| 文件 | 职责 |
|---|---|
STATUS.md | 总入口。当前线上版本 / 根因摘要 / 回滚信息。接手先读这个 |
insights/N-*.md | 一个根因 / 一个教训 / 一次失败的完整记录。重为什么 |
DEPLOY_LOG.md | 每次部署:备份时间戳 / 改了什么 / sanity 结果 / rollback 命令 |
scripts/ | 代码的权威副本(机器会回收、网盘可能丢,git 是唯一权威) |
training-history/ | epoch 级训练曲线,用来复盘和判 early-stop |
insight 写法:文件名带递增编号;开头一句话结论 + 日期;主体是
现象 → 候选根因 → 怎么区分 → 真根因(带证据:源码行号 / 实验数据)→ 修法。
失败的 insight 也要写 —— "试了 X 不行因为 Y" 能让下一个 agent 不再试 X。

Auto Research 最隐蔽、最致命的一环:模型训练时见到的世界,必须和它在生产时 见到的世界完全一样。任何不一致都会让"验证通过"变成"上线翻车"。
最快的翻车方式:训练数据某个预处理步骤(降采样比例 / 坐标系朝向 / 归一化) 和推理侧不一致 —— 验证指标好看(因为验证也用了训练那套),一上线就崩。
要逐项对齐:预处理、输入契约、坐标系朝向、后处理、配置开关。完整规范见
references/train-inference-parity.md。
部署是整个流程风险最高的一步。标准 8 步,一步都不能省:
铁则:生产推理机永不直接拿来跑训练 / 实验(训练永远用 deepx-machine
租临时机);每次部署完立刻写 DEPLOY_LOG.md。
训练几小时,agent 不能干等。用唤醒循环:启动长任务后设一个定时唤醒 (~1 小时级),唤醒时查进度→判断(继续 / early-stop / 完成 / 失败)→再设唤醒。 唤醒的 prompt 必须自包含(机器地址、日志路径、判断标准、下一步)。
失败处理三分法:可自愈的(SSH 端口变了、网盘抖动)→ 自动重试;需要决策的 (花钱 / 碰生产 / 不可逆)→ 停下问人;挖不动的根因 → 老实说"还没挖到", 列出已排除和待查的,求助 —— 不要继续输出半成品结论。
完整模式(唤醒 prompt 怎么写、间隔怎么定、资源纪律)见
references/long-horizon.md。
每个阶段的可勾选 checklist 见
assets/checklist.md —— 开始课题前、预处理后、训练后、
验证后、上线前、收尾,逐项过。上线前那一组尤其不能跳。
assets/checklist.md 自检,按
「核心循环」在验证不达标时回到调研。每个发现落盘成 insight。一次完整的 Auto Research(牙列分割 v4:从验证 NO-GO,到挖出两个根因
〔训推分布不匹配 + 黑盒 SDK 假配对〕,到 4 套模型全部安全上线)的复盘见
references/stage-sop.md 末尾的案例。
npx claudepluginhub deepshape-ai/deepx --plugin deepxCreates, edits, and optimizes skills for Claude Code, including drafting, evaluating with test prompts, iterating on performance, and improving skill descriptions for better triggering accuracy.