Long-horizon Auto Research 的总编排 skill:指导 agent 自主跑完 调研→数据→训练→验证→部署→上线 的完整闭环,跨越多天、经历多次失败迭代。 补齐 deepx 其它 skill 没有的上层方法论:10 条用失败换来的铁律 (现象≠根因 / 训推一致 / 一切可回滚 / 验证用真实路径 …)、8 阶段 SOP、 训推一体(train-inference parity)、部署 8 步 SOP、long-horizon 唤醒循环、 知识库结构。当用户请求 "auto research"、"自动调研"、"端到端训练上线"、 "long-horizon"、"长周期任务"、"训推一体"、"训推一致"、"版本对齐"、 "部署 SOP"、"上线流程"、"从数据到上线"、"完整闭环"、"自主跑完一个模型" 时使用。即使没明说,只要任务是"自主把一个模型从数据一路送上生产、要跨越 多次训练和失败",就用本 skill 做总编排。 边界分诊:租机 / SSH / 释放 GPU → deepx-machine;网盘 ls / 上传 ckpt / 拉预训练权重 → deepx-storage;idle 自动停机 → deepx-recycle;单次实验的 15 节落盘模板 → deepx-experiment。本 skill 把这四者串成完整 long-horizon 闭环,并提供它们之上的心法、SOP 与训推一体规范。
在 deepx 上跑训练时的实验落盘规范与多 agent 协调模式:从 15 节模板起新实验、写 per-class 指标、生成 business conclusion、协调 Claude + Codex 并行 12+ 实验、 按 ROI 排序选下一步、避免"做了实验但 3 天后忘了为什么有效"。当用户请求"实验记录"、 "实验落盘"、"experiment template"、"实验文档"、"多 agent 实验"、"并行实验"、 "v13-* 实验"、"per-class IoU"、"实验日志规范"、"ROI 排序"、"business conclusion"、 "训练日志怎么写"时使用。即使没明确说模板,只要涉及"跑了一组训练,要把结果写下来" 或"协调多个 agent 同时跑实验",都用本 skill。 本 skill 是落盘 / 写作 / 协调规范,不依赖任何 `deepx exp` 命令(CLI 不存在该子命令)。 边界分诊:租机 / SSH / 释放 → deepx-machine;上传 ckpt / 拉预训练权重 → deepx-storage; 自动停机 → deepx-recycle。
通过 deepx CLI 操作 GPU 实例的全生命周期:preflight 凭证检测、浏览市场、租机、SSH 执行命令、远程拷贝数据、释放、补登已存在节点、查账户余额、prune 清掉 stale 条目。 两道安全闸门防误删机器(registry 成员 + guard list 硬白名单——默认 rent / claim 都会写 guard)。当用户请求"租 GPU"、"租服务器"、"matpool"、"GPU 训练"、"分布式训练"、 "超参搜索"、"释放机器"、"关机器"、"查看余额"、"查看实例"、"列出机器"、"开机器跑训练"、 "看 matpool 市场"、"deepx compute"、"deepx auth"、"deepx balance"时使用。即使没明 确提到 deepx,只要涉及租用 GPU 云服务器进行训练或推理,都应优先使用此 skill。 边界分诊:网盘 ls/上传/下载 → deepx-storage;idle 自动回收 / 部署 sweeper → deepx-recycle;实验日志规范 / 多 agent 协调 / ROI 排序 → deepx-experiment。
运维 deepx 的 idle 自动回收:通过 `deepx doctor schedule install` 部署 macOS LaunchAgent 或 Linux systemd timer 周期跑 `deepx doctor sweep`、调 idle 阈值 / 起机宽限期 / release_after、查 sweep 日志和状态、定位"sweep 误杀训练"、决定机器 决定机器进 guard list 还是裸租。当用户请求"sweep"、"自动停机"、"idle 自动释放"、"部署 sweep 定时"、"sweep 日志"、"sweep 误杀"、"调整 idle 阈值"、 "防止 GPU 忘关持续烧钱"、"训练完自动释放机器"、"add 到 guard list"、"加白名单"、 "deepx doctor"时使用。 边界分诊:租机 / SSH / 手动释放 / 补登 → deepx-machine;网盘 → deepx-storage; 实验落盘 → deepx-experiment。
通过 `deepx storage` 操作云端网盘 (matpool fs API):列目录、查配额、上传 / 下载、 删文件 / 目录。不需要任何运行中的机器,也不走 SSH。当用户请求"网盘"、"上传到网盘"、 "下载网盘文件"、"matpool 网盘"、"matbox"、"管理云端存储"、"查矩池云配额"、"删网盘 目录"、"deepx storage"时使用。即使没明确说,只要涉及把文件传到 matpool **云端** 网盘(不是已挂载到机器内的 `/mnt`)或从云端下载,都用本 skill。 边界分诊:在跑机器内 `cd /mnt` 操作文件 → 直接 SSH 跑 cp/mv/rsync,不需要 skill; 从本地 rsync 到运行中机器(要增量 / 大目录) → `deepx-machine` 的 `compute cp`; 租机 / SSH / 释放 → `deepx-machine`;自动停机 → `deepx-recycle`。
Own this plugin?
Verify ownership to unlock analytics, metadata editing, and a verified badge. GitHub access is read-only (username + org membership).
Sign in to claimOwn this plugin?
Verify ownership to unlock analytics, metadata editing, and a verified badge. GitHub access is read-only (username + org membership).
Sign in to claimBased on adoption, maintenance, documentation, and repository signals. Not a security audit or endorsement.
GPU 云的统一命令行 — 租机、跑训练、传数据、idle 自动回收。一套命令打通从市场浏览到训练落盘。
介绍 · 核心能力 · 快速开始 · 命令参考 · AI 技能 · 安全
deepx 是一个面向 GPU 云的统一命令行工具,把租机、SSH、远程拷贝、网盘上传、idle 自动停机
等动作收敛到一个二进制。当前后端是 matpool;要接 AWS / vast.ai
等其他云,实现 internal/adapter/types.go 里的 Adapter 接口即可。
deepx 跟普通 CLI 不一样的地方有两点:
skills/ 让 AI agent 自己组合,业务怎么变形 CLI 都不卡你。rent 和 claim 都自动写 guard,临时实验机器
才显式 --no-whitelist。deepx 同时面向 Claude Code 等 AI agent。
skills/目录里 5 个 SKILL.md 让 agent 直接租机器、跑训练、上传 ckpt——无需额外配置。
deepx compute market --gpu A30 # 浏览市场
deepx compute rent --gpu A30 --name baseline --purpose "PTv3 30ep"
deepx compute exec mk0001 -- 'tmux new -s train -d "bash /mnt/train.sh"'
deepx compute cp mk0001 ./code/ remote:/mnt/code/ # SSH 上的 rsync,增量同步
deepx compute cp mk0001 remote:/mnt/runs/v1/best.pth ./ # 断点续传下载
deepx compute prune # 清掉 stale registry/guard
deepx storage ls runs # 不需要在跑机器
deepx storage cp ./model.pth remote:checkpoints/v14/ # 上传到 matpool 网盘
deepx storage cp remote:datasets/s3dis.zip ./ # 下载
deepx storage quota # 看配额
文件落网盘后,任意机器从 /mnt 直接读,跨会话/跨机器无感。compute cp 走 SSH 上的
rsync(要求机器在跑),storage cp 走 matpool HTTP API(不要求机器在跑)。
deepx doctor schedule install --interval 600 # 装 LaunchAgent / systemd timer
deepx doctor sweep # 手动跑一次(dry-run)
deepx doctor sweep --yes # 真扫真删
后台 reconciler 每 10 分钟读 nvidia-smi + ps,连续 3 tick idle 就 release。
绝大多数机器不会被扫到——默认 rent / claim 都进 guard list。临时实验需带
--no-whitelist 才会成为 sweep 候选。
deepx adapter ls # 列所有内置 adapter
deepx adapter use matpool # 切默认 adapter
deepx auth login # 凭证按 3 层链解析
每个 adapter 通过 CredentialSchema() 声明字段,CLI 不写死。matpool 要 USERNAME +
PASSWORD,未来 vast.ai 只要 API_KEY。凭证解析顺序:环境变量 → 项目级 .env → 用户级 .env。
| 写入入口 | 行为 |
|---|---|
compute rent | 默认写 guard(purpose 作为 reason);--no-whitelist 关闭 |
compute claim | 永远写 guard——claim 的语义就是"长期持有" |
compute guard add | 显式手动 add(少用,因为前两条已覆盖大多数情况) |
compute prune | 唯一的自动删除入口;只删 adapter 已确认死亡的条目 |
详见 docs/SAFETY.md。
macOS / Linux —— 一键装(amd64 / arm64 自动识别):
curl -fsSL https://raw.githubusercontent.com/deepshape-ai/deepx/main/scripts/install.sh | bash
默认装到 $HOME/.local/bin/deepx。重跑同一条命令即升级到最新 release,同版本自动跳过。
脚本会用 release 一起发布的 checksums.txt 校验 sha256。
Windows —— 去 Releases 下
deepx_<ver>_windows-amd64.zip,解压后把 deepx.exe 放进 PATH。
从源码构建(开发者):
git clone https://github.com/deepshape-ai/deepx.git
cd deepx && make install # → $HOME/.local/bin/deepx
BIN_DIR=/opt/local/bin make install # 自定义目录
make build / make install 都先跑 scripts/preflight.sh 校验 GOROOT / GOPROXY——
出问题不偷改 env,直接退出并打印修复命令。单二进制无运行时依赖(除系统 ssh 与可选 sshpass)。
deepx 同时是一个 Claude Code plugin(打包 5 个 skill,见下方「AI 技能集成」)。
marketplace 一键装:
/plugin marketplace add deepshape-ai/deepx
/plugin install deepx
或直接拷 skill 文件:
git clone https://github.com/deepshape-ai/deepx.git /tmp/deepx
mkdir -p ~/.claude/skills && cp -r /tmp/deepx/skills/deepx-* ~/.claude/skills/
重启 Claude Code 即生效。
matpool 需要 USERNAME(手机号)+ PASSWORD。三层 fallback,命中即用:
# 方式 1:环境变量
export DEEPX_MATPOOL_USERNAME=13800138000
export DEEPX_MATPOOL_PASSWORD=...
# 方式 2:项目本地 .env
echo 'USERNAME=13800138000' > .deepx/secrets.matpool.env
echo 'PASSWORD=...' >> .deepx/secrets.matpool.env
npx claudepluginhub deepshape-ai/deepx --plugin deepxUltra-compressed communication mode. Cuts ~75% of tokens while keeping full technical accuracy by speaking like a caveman.
Frontend design skill for UI/UX implementation
Comprehensive UI/UX design plugin for mobile (iOS, Android, React Native) and web applications with design systems, accessibility, and modern patterns
Memory compression system for Claude Code - persist context across sessions
Marketing skills for AI agents — conversion optimization, copywriting, SEO, paid ads, ad creative, and growth
Standalone image generation plugin using Nano Banana MCP server. Generates and edits images, icons, diagrams, patterns, and visual assets via Gemini image models. No Gemini CLI dependency required.