Skill

reinforcement-learning-recruiter

专为筛选强化学习（RL）工程师简历设计。当用户需要根据强化学习相关岗位描述（JD）评估候选人简历时使用此 skill。重点评估候选人在分布式系统、安全沙箱/容器、强化学习框架等方向的经验，生成包含多维度评分、评分理由和潜在疑点的结构化评估报告。适用场景：用户上传简历文件（PDF/Word/文本）并要求筛选或评估候选人。

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/cmq-work-skills:reinforcement-learning-recruiter

User invocable

Model invocable

Inline context

Default effort

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

按以下步骤依次执行，不得跳过：

Supporting Files

reinforcement_learning_engineer_jd.md

SKILL.md

161 lines · ~1k tokens

Stats

Stars0

MaintenanceExcellent

Last CommitMar 31, 2026

Actions

View Source View Plugin View on GitHub View README

Stats

Actions

强化学习工程师简历筛选 Skill

工作流程

按以下步骤依次执行，不得跳过：

解析简历：务必将简历附件转换为 Markdown 格式后，再进行后续分析。
执行评估：严格按照下方"评分标准"和"疑点检测"规则，对简历内容进行逐维度分析，给出初步评分。
交叉验证：对照原始 JD 要求（岗位职责、职位要求、加分项），审查各维度评分的合理性：
- 检查是否存在简历亮点被低估（如 JD 明确要求"安全容器"或"分布式训练"经验，但评分未充分体现）
- 检查是否存在简历短板被忽视（如 JD 要求"Kubernetes 架构"经验，但候选人仅停留在概念层面）
- 检查加分项匹配度（如候选人具备 openclaw、claudecode 等 JD 明确提及的加分项，是否在评分中体现）
- 如有偏差，调整相应维度得分并说明调整理由
生成报告：严格按照下方"输出格式"生成最终的 Markdown 评估报告，并直接呈现给用户。

岗位背景

本 skill 针对以下类型的强化学习工程师岗位设计：

原始 JD 文件：origin_jd.md

核心职责

与 Agentic 强化学习训练框架深度配合，支持高并发、大规模工具调用及复杂交互流程；
构建 Agent、Function Call、Sandbox 及其他环境交互场景下的分布式训练奖励评估系统；
构建 Agent 框架与平台，支持复杂交互下的强化学习模型训练；
对强化学习任务的 agent 链路进行工程性能优化，提升模型训练效率。

评分标准

共五个维度，每个维度独立打分（1–5 分），最终按权重计算综合得分（满分 100 分）。

维度一：工程与系统构建能力（权重 30%）

考察候选人从 0 到 1 构建复杂系统的工程经验、逻辑分析能力和算法基础。

分数	标准
5	简历中有明确的、主导完成的复杂系统从零构建经历，描述清晰，有可量化的规模或成果（如 QPS、延迟、规模等）。
4	有复杂系统的核心模块设计与开发经历，主导或深度参与，但量化成果不够充分。
3	有较复杂系统的开发经历，但以执行为主，非主要设计者，或项目规模有限。
2	参与过系统开发，但主要承担功能模块或维护工作，缺乏系统性设计经验。
1	仅有基础的编码经历，无复杂系统构建经验。

维度二：分布式系统与 Kubernetes（权重 25%）

考察候选人在分布式系统原理、Kubernetes 架构及其生态的掌握程度与实践经验。

分数	标准
5	深入参与过大规模分布式系统（如千节点以上集群）的设计、开发和维护；精通 K8s 架构，有自定义 Operator、调度器或网络插件等深度实践。
4	在生产环境中使用 K8s 管理过中等规模服务，熟悉常见分布式系统问题（一致性、容错、服务发现等）并有实际解决经验。
3	有 K8s 使用经验，能独立部署和运维服务，了解分布式系统基本原理，但未涉及深度定制或大规模场景。
2	了解 K8s 基本概念，有有限的使用经验，分布式系统知识停留在理论层面。
1	对 K8s 和分布式系统仅有概念性了解，无实际经验。

维度三：安全容器与沙箱隔离技术（权重 10%）

考察候选人对安全容器（gVisor、Kata Containers、Firecracker 等）及多租户隔离环境的理解深度与落地经验。

分数	标准
5	有安全沙箱或多租户隔离环境的完整架构设计与生产落地经验，深入理解至少一种安全容器技术的内核原理（如 gVisor 的系统调用拦截机制）。
4	深入理解安全容器技术原理，有实际部署和调优经验，但非完整架构设计者。
3	了解安全容器的基本原理和使用方法，有过评估或试验性使用经历。
2	对安全容器有概念性了解，知道 gVisor/Kata 等技术的存在和用途，但无实际使用经验。
1	对安全容器和沙箱隔离技术不了解或未提及。

维度四：强化学习框架与分布式训练经验（权重 25%）

考察候选人对主流强化学习训练框架（verl、slime、Areal 等）的掌握程度、实际应用经验，以及是否具备分布式强化学习训练的工程经验。分布式 RL 训练经验（如多机多卡训练、异步 rollout、reward 分布式评估等）视为重要加分点。

分数	标准
5	熟练掌握至少一种指定框架，有在生产级项目中应用的经验；同时具备分布式强化学习训练的完整工程经验（如多机多卡训练、异步 rollout pipeline、分布式 reward 评估系统等）。
4	熟悉至少一种指定框架并有实际项目应用经验；或虽无分布式 RL 训练经验，但在框架使用上有深度实践（能描述具体场景和解决的工程问题）。
3	了解强化学习训练框架的基本原理，有过学习或实验性使用经历，但未在正式项目中大规模应用；对分布式训练有概念性了解。
2	对强化学习有一定了解，但未接触过指定框架，或仅停留在理论学习阶段；无分布式 RL 训练经验。
1	简历中未体现强化学习相关经验。

维度五：加分项（权重 10%）

考察候选人是否具备 JD 中提及的加分项经验：openclaw、claudecode、opencode 等工程实践，或安全容器、虚拟机、浏览器沙箱等方向的专项经验。

分数	标准
5	具备多项加分项，且有明确的实际落地经验。
4	具备一项加分项，且有实际落地经验。
3	具备一项加分项，但仅有理论了解或试验性使用经历。
2	与加分项方向有一定关联，但未直接涉及。
1	不具备任何加分项相关经验。

综合得分计算

综合得分 = (D1×30 + D2×25 + D3×10 + D4×25 + D5×10) / 5

其中 D1–D5 分别为五个维度的得分（1–5 分），最终结果为满分 100 分的综合得分。

疑点检测

在评分完成后，必须对简历进行以下专项检查。若发现疑点，在报告中逐条列出；若无疑点，明确写出"未发现明显疑点"。

时间线重叠：检查所有工作经历和项目经历的起止时间，若存在同一时段出现两段全职工作或两个全时投入项目的情况，标注出具体的重叠时间段和涉及的公司/项目名称。
技能与项目不匹配：若技能列表中声称"精通"或"熟练掌握"的技术，在所有项目描述中完全没有体现，则标注出该技术名称。
描述自相矛盾：若简历中存在前后矛盾的表述（如年限描述不一致、同一技术在不同位置的熟悉程度描述相差悬殊），标注出具体位置和矛盾内容。
经历断层：若工作经历中存在超过 6 个月的空白期且未作说明，标注出该时间段。

输出格式

最终报告必须严格遵循以下 Markdown 格式输出：

## 简历评估报告：[候选人姓名]

> **岗位**：强化学习工程师（Agentic RL 方向）
> **综合得分：[X.X] / 100**

---

### 维度评分详情

| 维度 | 权重 | 得分（1-5） | 加权分 | 评分理由 |
| :--- | :--- | :---: | :---: | :--- |
| 工程与系统构建 | 30% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 分布式系统与 K8s | 25% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 安全容器与沙箱隔离 | 10% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 强化学习框架与分布式训练 | 25% | [分数] | [加权分] | [基于简历原文的具体依据] |
| 加分项 | 10% | [分数] | [加权分] | [基于简历原文的具体依据] |
| **综合得分** | 100% | — | **[总分]** | — |

---

### 潜在疑点

- **[疑点类型]**：[具体描述，引用简历中的原始信息]
- 若无疑点：未发现明显疑点。

---

### 综合评价

[2–3 段文字，概述候选人的核心优势、明显短板，以及是否建议进入下一轮面试，并给出理由。]

reinforcement-learning-recruiter

Invocation

Context Preview

Supporting Files

SKILL.md

reinforcement-learning-recruiter

Invocation

Context Preview

Supporting Files

SKILL.md

强化学习工程师简历筛选 Skill

工作流程

岗位背景

核心职责

评分标准

维度一：工程与系统构建能力（权重 30%）

维度二：分布式系统与 Kubernetes（权重 25%）

维度三：安全容器与沙箱隔离技术（权重 10%）

维度四：强化学习框架与分布式训练经验（权重 25%）

维度五：加分项（权重 10%）

综合得分计算

疑点检测

输出格式

Similar Skills

强化学习工程师简历筛选 Skill

工作流程

岗位背景

核心职责

评分标准

维度一：工程与系统构建能力（权重 30%）

维度二：分布式系统与 Kubernetes（权重 25%）

维度三：安全容器与沙箱隔离技术（权重 10%）

维度四：强化学习框架与分布式训练经验（权重 25%）

维度五：加分项（权重 10%）

综合得分计算

疑点检测

输出格式

Similar Skills