Claude image

教 Claude Code、Codex 等 agent 真正用好 GPT Image 2 的 drop-in skill 包。 A drop-in skill that teaches Claude Code, Codex, and other agents to actually use GPT Image 2.

简体中文 · English

简体中文

把这玩意儿丢进 Claude Code 或 Codex，你的 agent 就能从「这是个 curl 命令，祝你好运」进化成一次到位地产出 pitch deck 幻灯片、中文海报、像素图块、写实产品图、外科手术级修图。

GPT Image 2 是 2026 年 4 月发布的——这一代是分水岭：长指令式 prompt 不再丢细节，文字渲染终于正确（中日韩通吃），自定义分辨率最长 3840px，编辑端点用 change ONLY X / preserve Y exactly 模式做精准局部修改。

但是问题来了：2026 年 4 月之前训练的 agent 一无所知。它们用老办法写 prompt——"4K, ultra detailed, masterpiece, trending on artstation"——这些词在 GPT Image 2 上要么被忽略，要么直接帮倒忙。它们粘 curl 命令而不存文件。它们生成完之后问用户"这看着对吗？"，根本不自己看一眼。

这个 skill 把这些全修了。

仓库结构

gpt-image-2/
├── SKILL.md                # 入口。Claude 自动加载。
├── README.md               # 你正在看的这个。
├── LICENSE                 # MIT。
├── install.sh              # Claude Code 一键安装。
├── .env.example            # 两个环境变量,就这一点配置。
├── references/
│   ├── prompting.md        # 7 条习惯 + 意图优先框架 + 风格词表
│   ├── use-cases.md        # 10+ 复制即用模板:PPT 幻灯片、UI mockup、
│   │                       # 中文海报、像素图、角色三视图、信息图、
│   │                       # logo、写实摄影、修图……
│   ├── api.md              # 完整参数 + 自定义分辨率约束
│   └── post-process.md     # 压缩、缩放、转码 (pngquant/cwebp/avifenc)
└── scripts/
    └── gpt_image.py        # 零依赖 Python CLI (只用 urllib,Python 3.7+)

为什么你的 agent 真的会去调用它

三个让这玩意儿真正起作用而不是装饰品的设计:

可发现的 description。frontmatter 里把所有触发词都列了——"海报"、"图标"、"ppt素材"、"改图"、"draw me"、"make an image"——所以 agent 的 skill 选择器在收到图像请求时真的会触发,而不是退回去自己拼 curl。
一个 CLI,四种能力。生成 / 编辑 / 局部重绘 / 并行批处理都是一个脚本的子命令。鉴权、重试、b64 vs URL、multipart、文件 IO、并行批处理——都处理好了。Agent 自己手撸基本上某一项会出错。
视觉自验证写进了工作流。Skill 明确告诉 Claude 在把结果给用户之前自己 Read 一下生成的 PNG,对照 prompt 检查。再也不会出现"图给你了,你看对不对"。

安装

Claude Code(一行)

git clone https://github.com/jiangmuran/claude-image.git ~/.claude/skills/gpt-image-2 \
  && bash ~/.claude/skills/gpt-image-2/install.sh

安装脚本会问你要 API key,写到 ~/.zshrc,可选跑一个冒烟测试。

装完之后下一次有图像请求 Claude 自动发现 skill——不用重启,不用注册。

Codex(或任何扫描 `~/.agents/skills/` 的 agent)

git clone https://github.com/jiangmuran/claude-image.git ~/.agents/skills/gpt-image-2 \
  && bash ~/.agents/skills/gpt-image-2/install.sh

同一个 skill,同一个脚本,同一组环境变量。

手动 / 其他 agent / 直接命令行

git clone https://github.com/jiangmuran/claude-image.git
cd gpt-image-2

echo 'export OPENAI_IMAGE_API_KEY="sk-..."' >> ~/.zshrc
echo 'export OPENAI_IMAGE_BASE_URL="https://jmrai.net/v1"' >> ~/.zshrc
source ~/.zshrc

python3 scripts/gpt_image.py generate \
  -p "a red panda eating bamboo, flat vector illustration, off-white background" \
  -o ./test.png
open test.png

凭据

两个环境变量。配置就这么多。

变量	必填	默认值
`OPENAI_IMAGE_API_KEY`	是	—
`OPENAI_IMAGE_BASE_URL`	否	`https://jmrai.net/v1`

如果没设置 image 专用的两个,会回退到 OPENAI_API_KEY / OPENAI_BASE_URL——如果你已经在用同一个 key 跑 chat completions 这就很方便。

**自建反代image 2的API 原生支持此skill >_< ** https://order.jmrai.net

不要把 key commit 进去。 .gitignore 已经排除了 .env。.env.example 只是模板。

它能做什么

非完整列表(完整模板看 references/use-cases.md):

Pitch-deck 幻灯片 — 长得像真正的 Series A 董事会幻灯片,而不是"画一张幻灯片的插图"。具体数据、具体字体、具体配色。多页一致性靠 edit endpoint。
中文海报和招贴 — 春节海报、产品发布、活动封面。引号里的精确文字 + 字体类型(楷书 / 黑体 / 思源黑体)+ "no extra Chinese characters" 收尾。渲染干净。
写实 UI mockup — 桌面 dashboard、移动端,放在真实设备外框里,文案写得像真的。Inter 字体、十六进制配色、合理的任务名。
像素图和游戏素材 — 角色 sprite、俯视图块集(用品红色 chroma key)、物品图标、角色三视图、场景概念图。
信息图 — GPT Image 2 真正能渲染的密集文字 + 复杂结构。use-cases.md 里有"How an Espresso Machine Works"模板。
Logo 概念 — 2x2 变体网格,探索不同形状语言。Vector clean、无渐变、无 3D。
写实产品图 — 用真正的摄影术语(50mm f/2.8、北窗光、35mm 胶片颗粒)代替"高品质"。
外科手术级修图 — change ONLY X / preserve Y exactly 模式。物体替换、背景换、风格迁移、mask 局部重绘。
报告插图和点缀图 — FT 风格编辑图、水粉章节插图、app 空状态角色。

它怎么教 agent 写 prompt

完整指南在 references/prompting.md。一句话:抛掉魔法咒语。

GPT Image 2 之前的 prompt 工程基本上是在和训练数据里的口水话做模式匹配:

beautiful stunning ultra-detailed 4K 8K masterpiece trending on artstation
cinematic lighting professional photography premium quality

GPT Image 2 不奖励这一套。它奖励指令式、具体、意图优先的 prompt:

Create a pitch-deck slide titled "Q3 Revenue Performance" that looks
like a real Series A board-meeting slide. Layout (16:9): title top-left,
36pt Inter dark gray. Two-column body: left 60% chart, right 40% three
KPI cards. Chart: vertical bars, Q1–Q3 2026, y-axis $0–$8M, three bars
at $3.2M, $4.8M, $6.5M, muted blue palette. KPI cards: "+34% YoY",
"189 new accounts", "$42K ACV". White background, Inter typography,
tight 8px grid, no clip art, no gradients, no stock photography.

注意里面没有:没有夸赞词、没有"ultra detailed"、没有"8K"。每一个词都在做具体的指令性工作。

Skill 教 Claude(或任何 agent)规范结构:

意图 / 用途  →  场景 / 背景  →  主体  →
  关键细节  →  文字内容  →  风格语言  →  约束条件

加上 7 条习惯:意图开头、所有文字加引号、用规格语言不用夸赞语言、修图永远"change ONLY X / preserve Y"、一个风格锚点不要五个、抛掉魔法咒语、迭代不要堆砌。

视觉自验证为什么重要

一个细微但巨大的改进:skill 让 Claude 自己 Read 生成的 PNG 并对照 prompt 判断,然后再给用户看。文字渲染对了吗?构图在你说的位置吗?negative 听话了吗?

gpt-image-2

Popularity

What's Inside

README

Claude image

简体中文

仓库结构

为什么你的 agent 真的会去调用它

安装

Claude Code(一行)

Codex(或任何扫描 `~/.agents/skills/` 的 agent)

手动 / 其他 agent / 直接命令行

凭据

它能做什么

它怎么教 agent 写 prompt

视觉自验证为什么重要

Confidence

Similar Plugins

caveman

frontend-design

ui-design

claude-mem

marketing-skills

nanobanana

More by MuseLinn

deepseek-statusline

muselinn-toolkit

Popularity

Health & Quality

More by MuseLinn

deepseek-statusline

muselinn-toolkit

Similar Plugins

caveman

frontend-design

ui-design

claude-mem

marketing-skills

nanobanana

gpt-image-2

Popularity

What's Inside

README

Claude image

简体中文

仓库结构

为什么你的 agent 真的会去调用它

安装

Claude Code(一行)

Codex(或任何扫描 ~/.agents/skills/ 的 agent)

手动 / 其他 agent / 直接命令行

凭据

它能做什么

它怎么教 agent 写 prompt

视觉自验证为什么重要

Confidence

Similar Plugins

caveman

frontend-design

ui-design

claude-mem

marketing-skills

nanobanana

More by MuseLinn

deepseek-statusline

muselinn-toolkit

Popularity

Health & Quality

More by MuseLinn

deepseek-statusline

muselinn-toolkit

Similar Plugins

caveman

frontend-design

ui-design

claude-mem

marketing-skills

nanobanana

Codex(或任何扫描 `~/.agents/skills/` 的 agent)