Head-to-head comparison of coding agents (Claude Code, Aider, Codex) on custom tasks with pass rate, cost, time, and consistency metrics.
How this skill is triggered — by the user, by Claude, or both
Slash command
/everything-claude-code:agent-evalThe summary Claude sees in its skill listing — used to decide when to auto-load this skill
一个轻量级 CLI 工具,用于在可重现任务上对编码智能体进行头对头比较。每个"哪个编码智能体最好?"的比较都基于氛围 — 此工具将其系统化。
一个轻量级 CLI 工具,用于在可重现任务上对编码智能体进行头对头比较。每个"哪个编码智能体最好?"的比较都基于氛围 — 此工具将其系统化。
注意: 在审查源代码后从其存储库安装 agent-eval。
声明式定义任务。每个任务指定做什么、触摸哪些文件以及如何判断成功:
name: add-retry-logic
description: 为 HTTP 客户端添加指数退避重试
repo: ./my-project
files:
- src/http_client.py
prompt: |
为所有 HTTP 请求添加指数退避的重试逻辑。
最多 3 次重试。初始延迟 1 秒,最大延迟 30 秒。
judge:
- type: pytest
command: pytest tests/test_http_client.py -v
- type: grep
pattern: "exponential_backoff|retry"
files: src/http_client.py
commit: "abc1234" # 固定到特定提交以确保可重现性
每个智能体运行都有自己的 git 工作树 — 不需要 Docker。这提供了可重现性隔离,因此智能体不会相互干扰或损坏基础存储库。
| 指标 | 衡量内容 |
|---|---|
| 通过率 | 智能体是否产生通过判断器的代码? |
| 成本 | 每项任务的 API 开销(如果可用) |
| 时间 | 完成的墙钟秒数 |
| 一致性 | 重复运行的通过率(例如,3/3 = 100%) |
创建一个 tasks/ 目录,每个任务一个 YAML 文件:
mkdir tasks
# 编写任务定义(见上面的模板)
针对您的任务执行智能体:
agent-eval run --task tasks/add-retry-logic.yaml --agent claude-code --agent aider --runs 3
每次运行:
生成比较报告:
agent-eval report --format table
Task: add-retry-logic (各运行 3 次)
┌──────────────┬───────────┬────────┬────────┬─────────────┐
│ Agent │ Pass Rate │ Cost │ Time │ Consistency │
├──────────────┼───────────┼────────┼────────┼─────────────┤
│ claude-code │ 3/3 │ $0.12 │ 45s │ 100% │
│ aider │ 2/3 │ $0.08 │ 38s │ 67% │
└──────────────┴───────────┴────────┴────────┴─────────────┘
judge:
- type: pytest
command: pytest tests/ -v
- type: command
command: npm run build
judge:
- type: grep
pattern: "class.*Retry"
files: src/**/*.py
judge:
- type: llm
prompt: |
此实现是否正确处理指数退避?
检查:最大重试次数、递增延迟、抖动。
npx claudepluginhub aaione/everything-claude-code-zhCompares coding agents (Claude Code, Aider, Codex) head-to-head on custom tasks with pass rate, cost, time, and consistency metrics.
Compares coding agents like Claude Code and Aider on custom YAML-defined codebase tasks using git worktrees, measuring pass rate, cost, time, and consistency.
Create custom agents for Claude Code including YAML frontmatter, system prompts, tool restrictions, and discovery optimization. Use when creating, building, or designing agents, or when asked about agent creation, subagent configuration, Task tool delegation, or agent best practices.