Claude image
教 Claude Code、Codex 等 agent 真正用好 GPT Image 2 的 drop-in skill 包。
A drop-in skill that teaches Claude Code, Codex, and other agents to actually use GPT Image 2.
简体中文 · English
简体中文
把这玩意儿丢进 Claude Code 或 Codex,你的 agent 就能从「这是个 curl 命令,祝你好运」进化成一次到位地产出 pitch deck 幻灯片、中文海报、像素图块、写实产品图、外科手术级修图。
GPT Image 2 是 2026 年 4 月发布的——这一代是分水岭:长指令式 prompt 不再丢细节,文字渲染终于正确(中日韩通吃),自定义分辨率最长 3840px,编辑端点用 change ONLY X / preserve Y exactly 模式做精准局部修改。
但是问题来了:2026 年 4 月之前训练的 agent 一无所知。它们用老办法写 prompt——"4K, ultra detailed, masterpiece, trending on artstation"——这些词在 GPT Image 2 上要么被忽略,要么直接帮倒忙。它们粘 curl 命令而不存文件。它们生成完之后问用户"这看着对吗?",根本不自己看一眼。
这个 skill 把这些全修了。
仓库结构
gpt-image-2/
├── SKILL.md # 入口。Claude 自动加载。
├── README.md # 你正在看的这个。
├── LICENSE # MIT。
├── install.sh # Claude Code 一键安装。
├── .env.example # 两个环境变量,就这一点配置。
├── references/
│ ├── prompting.md # 7 条习惯 + 意图优先框架 + 风格词表
│ ├── use-cases.md # 10+ 复制即用模板:PPT 幻灯片、UI mockup、
│ │ # 中文海报、像素图、角色三视图、信息图、
│ │ # logo、写实摄影、修图……
│ ├── api.md # 完整参数 + 自定义分辨率约束
│ └── post-process.md # 压缩、缩放、转码 (pngquant/cwebp/avifenc)
└── scripts/
└── gpt_image.py # 零依赖 Python CLI (只用 urllib,Python 3.7+)
为什么你的 agent 真的会去调用它
三个让这玩意儿真正起作用而不是装饰品的设计:
-
可发现的 description。frontmatter 里把所有触发词都列了——"海报"、"图标"、"ppt素材"、"改图"、"draw me"、"make an image"——所以 agent 的 skill 选择器在收到图像请求时真的会触发,而不是退回去自己拼 curl。
-
一个 CLI,四种能力。生成 / 编辑 / 局部重绘 / 并行批处理都是一个脚本的子命令。鉴权、重试、b64 vs URL、multipart、文件 IO、并行批处理——都处理好了。Agent 自己手撸基本上某一项会出错。
-
视觉自验证写进了工作流。Skill 明确告诉 Claude 在把结果给用户之前自己 Read 一下生成的 PNG,对照 prompt 检查。再也不会出现"图给你了,你看对不对"。
安装
Claude Code(一行)
git clone https://github.com/jiangmuran/claude-image.git ~/.claude/skills/gpt-image-2 \
&& bash ~/.claude/skills/gpt-image-2/install.sh
安装脚本会问你要 API key,写到 ~/.zshrc,可选跑一个冒烟测试。
装完之后下一次有图像请求 Claude 自动发现 skill——不用重启,不用注册。
Codex(或任何扫描 ~/.agents/skills/ 的 agent)
git clone https://github.com/jiangmuran/claude-image.git ~/.agents/skills/gpt-image-2 \
&& bash ~/.agents/skills/gpt-image-2/install.sh
同一个 skill,同一个脚本,同一组环境变量。
手动 / 其他 agent / 直接命令行
git clone https://github.com/jiangmuran/claude-image.git
cd gpt-image-2
echo 'export OPENAI_IMAGE_API_KEY="sk-..."' >> ~/.zshrc
echo 'export OPENAI_IMAGE_BASE_URL="https://jmrai.net/v1"' >> ~/.zshrc
source ~/.zshrc
python3 scripts/gpt_image.py generate \
-p "a red panda eating bamboo, flat vector illustration, off-white background" \
-o ./test.png
open test.png
凭据
两个环境变量。配置就这么多。
| 变量 | 必填 | 默认值 |
|---|
OPENAI_IMAGE_API_KEY | 是 | — |
OPENAI_IMAGE_BASE_URL | 否 | https://jmrai.net/v1 |
如果没设置 image 专用的两个,会回退到 OPENAI_API_KEY / OPENAI_BASE_URL——如果你已经在用同一个 key 跑 chat completions 这就很方便。
**自建反代image 2的API 原生支持此skill >_< ** https://order.jmrai.net
不要把 key commit 进去。 .gitignore 已经排除了 .env。.env.example 只是模板。
它能做什么
非完整列表(完整模板看 references/use-cases.md):
- Pitch-deck 幻灯片 — 长得像真正的 Series A 董事会幻灯片,而不是"画一张幻灯片的插图"。具体数据、具体字体、具体配色。多页一致性靠 edit endpoint。
- 中文海报和招贴 — 春节海报、产品发布、活动封面。引号里的精确文字 + 字体类型(
楷书 / 黑体 / 思源黑体)+ "no extra Chinese characters" 收尾。渲染干净。
- 写实 UI mockup — 桌面 dashboard、移动端,放在真实设备外框里,文案写得像真的。Inter 字体、十六进制配色、合理的任务名。
- 像素图和游戏素材 — 角色 sprite、俯视图块集(用品红色 chroma key)、物品图标、角色三视图、场景概念图。
- 信息图 — GPT Image 2 真正能渲染的密集文字 + 复杂结构。
use-cases.md 里有"How an Espresso Machine Works"模板。
- Logo 概念 — 2x2 变体网格,探索不同形状语言。Vector clean、无渐变、无 3D。
- 写实产品图 — 用真正的摄影术语(50mm f/2.8、北窗光、35mm 胶片颗粒)代替"高品质"。
- 外科手术级修图 —
change ONLY X / preserve Y exactly 模式。物体替换、背景换、风格迁移、mask 局部重绘。
- 报告插图和点缀图 — FT 风格编辑图、水粉章节插图、app 空状态角色。
它怎么教 agent 写 prompt
完整指南在 references/prompting.md。一句话:抛掉魔法咒语。
GPT Image 2 之前的 prompt 工程基本上是在和训练数据里的口水话做模式匹配:
beautiful stunning ultra-detailed 4K 8K masterpiece trending on artstation
cinematic lighting professional photography premium quality
GPT Image 2 不奖励这一套。它奖励指令式、具体、意图优先的 prompt:
Create a pitch-deck slide titled "Q3 Revenue Performance" that looks
like a real Series A board-meeting slide. Layout (16:9): title top-left,
36pt Inter dark gray. Two-column body: left 60% chart, right 40% three
KPI cards. Chart: vertical bars, Q1–Q3 2026, y-axis $0–$8M, three bars
at $3.2M, $4.8M, $6.5M, muted blue palette. KPI cards: "+34% YoY",
"189 new accounts", "$42K ACV". White background, Inter typography,
tight 8px grid, no clip art, no gradients, no stock photography.
注意里面没有:没有夸赞词、没有"ultra detailed"、没有"8K"。每一个词都在做具体的指令性工作。
Skill 教 Claude(或任何 agent)规范结构:
意图 / 用途 → 场景 / 背景 → 主体 →
关键细节 → 文字内容 → 风格语言 → 约束条件
加上 7 条习惯:意图开头、所有文字加引号、用规格语言不用夸赞语言、修图永远"change ONLY X / preserve Y"、一个风格锚点不要五个、抛掉魔法咒语、迭代不要堆砌。
视觉自验证为什么重要
一个细微但巨大的改进:skill 让 Claude 自己 Read 生成的 PNG 并对照 prompt 判断,然后再给用户看。文字渲染对了吗?构图在你说的位置吗?negative 听话了吗?