A comprehensive knowledge base for Huawei Ascend NPU development, structured as distributed AI Agent Skills. Includes npu-smi device management, HCCL performance testing, and ATC model conversion.
npx claudepluginhub ascend-ai-coding/awesome-ascend-skills从 gitcode-ascend 同步的 Ascend 技能集,包含 91 个技能: - analyse-coverage: 分析测试覆盖率盲区,生成覆盖率分析报告 - arxiv-recommendation-npu: 自动化推荐系统论文发现流水线。抓取 arxiv 推荐论文,检测源码,生成待迁移任务清单,由 npu-model-migration skill 完成 NPU 适配。 - ascend-inference-repos-copilot: 昇腾(Ascend)推理生态开源代码仓库智能问答专家旨在为 vLLM、vLLM-Ascend、MindIE-LLM、MindIE-SD、MindIE-Motor、MindIE-Turbo 以及 msM - ... 等 88 个技能
基于华为昇腾 NPU 开发的 AI Agent 知识库,以 Skill 形式组织,支持 Claude Code、OpenCode、Cursor、Trae、Codex 等多种 AI 编程工具。
Awesome Ascend Skills 是一套面向华为昇腾 NPU 开发的结构化知识库。每个 Skill 都是独立的 AI Agent 能力模块,涵盖设备管理、模型转换、性能测试、量化压缩、推理部署等场景。
使用 npx 一键安装到所有支持的 AI 编程工具:
# 安装全部 Skills
npx skills add ascend-ai-coding/awesome-ascend-skills
# 安装单个 Skill
npx skills add ascend-ai-coding/awesome-ascend-skills --skill npu-smi
支持的 AI 编程工具:Claude Code、OpenCode、Cursor、Trae、Codex 等。
如果无法使用 npx,可以手动复制 Skill 文件:
方式一:项目级安装(推荐)
将 Skill 复制到项目根目录的 .agents/skills/ 下:
# 克隆仓库
git clone https://github.com/ascend-ai-coding/awesome-ascend-skills.git
# 复制需要的 Skill 到项目目录
cp -r awesome-ascend-skills/npu-smi your-project/.agents/skills/
方式二:全局安装
将 Skill 复制到对应 AI 编程工具的全局 Skills 目录。各平台安装位置请参考官方文档:
| 平台 | 文档链接 |
|---|---|
| OpenCode | https://opencode.ai/docs/zh-cn/skills/ |
| Cursor | https://cursor.com/cn/docs/context/skills |
| Claude Code | https://code.claude.com/docs/zh-CN/skills |
| Trae | https://docs.trae.cn/ide/skills |
| Skill | 类别 | 描述 |
|---|---|---|
| npu-smi | 运维 | NPU 设备管理:健康状态查询、温度/功耗监控、固件升级、虚拟化配置、证书管理 |
| hccl-test | 测试 | HCCL 集合通信性能测试:带宽测试、AllReduce/AllGather 等集合操作基准测试 |
| torch-npu-comm-test | 测试 | 通过 torch.distributed 测试通信算子性能:支持任意 tensor shape、dtype,torchrun 启动,贴近真实训练场景 |
| atc-model-converter | 开发 | ATC 模型转换:ONNX 转 .om 格式、OM 推理、精度对比、YOLO 端到端部署 |
| ascend-docker | 运维 | Docker 容器配置:NPU 设备映射、卷挂载、开发环境隔离 |
| msmodelslim | 开发 | 模型压缩量化:W4A8/W8A8/W8A8S 量化、MoE/多模态模型支持、精度自动调优 |
| vllm-ascend | 开发 | vLLM 推理引擎:离线批推理、OpenAI 兼容 API、量化模型服务、分布式推理 |
| ais-bench | 测试 | AI 模型评估工具:精度评估(MMLU/GSM8K/MMMU 等 15+ 基准)、性能压测、Function Call |
| ascendc | 开发 | AscendC 算子开发:FFN/GMM/MoE 等 Transformer 算子实现、CANN API 示例 |
| torch_npu | 开发 | PyTorch 昇腾扩展:环境检查、部署指引、PyTorch 迁移到 NPU 的完整指南 |
| mindspeed-llm-pipeline | 开发 | MindSpeed-LLM 端到端流水线:环境搭建→数据预处理→权重转换→训练→评估→导出 |
| mindspeed-llm-env-setup | 开发 | MindSpeed-LLM 环境搭建:CANN + torch_npu + MindSpeed + Megatron-LM 安装配置 |
| mindspeed-llm-data-prep | 开发 | MindSpeed-LLM 数据预处理:Alpaca/ShareGPT/预训练数据格式转换、分词打包 |
| mindspeed-llm-weight-prep | 开发 | MindSpeed-LLM 权重转换:HF↔Megatron 格式转换、LoRA 权重合并、TP/PP 切分 |
| mindspeed-llm-training | 开发 | MindSpeed-LLM 训练启动:预训练/SFT/LoRA/QLoRA 分布式训练、可选评估 |
| diffusers-ascend-env-setup | 开发 | Diffusers 环境配置:CANN 版本检测、PyTorch + torch_npu 安装、Diffusers 安装验证 |
| npu-op-benchmark | 测试 | 昇腾 NPU 算子性能基准测试:支持 SSH/Conda/Docker,测 算子 100 次平均耗时 |
| ascend-opplugin | 开发 | op-plugin 环境安装与 torch_npu 自定义算子接入:无 workspace / workspace+tiling 两种模式,从内核实现到 host 注册、构建与测试 |
| diffusers-ascend-weight-prep | 开发 | Diffusers 权重准备:HuggingFace/ModelScope 模型下载、基于 config.json 生成假权重用于验证 |
| diffusers-ascend-pipeline | 开发 | Diffusers Pipeline 推理:环境预检、通用推理(图像/视频)、内存优化、LoRA 集成 |
| training-mfu-calculator | 测试 | MFU 计算工具:Dense/MoE 模型 FLOPs 计算、Ascend NPU 硬件峰值参考、性能分析报告 |
| github-issue-summary | 开发 | GitHub Issue 分析:从已关闭 issue 生成故障排查案例、根因分析、经验总结 |
| github-issue-rca | 开发 | GitHub Issue 根因分析:分析 issue 内容和代码仓库,识别可能的根本原因,提供调查方向和概率评估 |
| profiling-analysis | 分析 | Profiling 性能分析技能集:分析 step_trace_time.csv 识别下发、通信、计算瓶颈 |
| mindspeed-llm-train-profiler | 分析 | 自动化完成昇腾 NPU 上 MindSpeed-LLM 训练的 Profiling 数据采集 |
| ai-for-science | 开发 | AI for Science 总入口:负责 Profiling 采集、模型迁移、TensorFlow/Keras 路线选择,并分流到对应子 skill。 |
以下 skills 从外部仓库自动同步,请勿手动修改。