Skill

memory-eval

This skill should be used when the user asks to "évaluer le rappel", "tester la recherche mémoire", "mesurer la qualité du rappel", "le bon fait remonte-t-il", "evaluate recall", "test memory search quality", or "/memory-eval". It measures whether the right fact surfaces for realistic queries (recall@k, MRR) via the real search path, and points to remediation.

Popularity

Stars

Invocation

How this skill is triggered — by the user, by Claude, or both

Slash command

/shared-memory:memory-eval

User invocable

Model invocable

Inline context

Default effort

Tool Access

This skill is limited to the following tools:

BashReadWrite

Context Preview

The summary Claude sees in its skill listing — used to decide when to auto-load this skill

Mesure si **le bon fait remonte au bon moment** : pour des requêtes réalistes, le fait attendu

SKILL.md

60 lines · ~747 tokens

Stats

LanguagePython

Stars1

MaintenanceExcellent

Last CommitJun 12, 2026

Actions

View Source View Plugin View on GitHub View README

Stats

Actions

memory-eval — Évaluer la qualité du rappel

Mesure si le bon fait remonte au bon moment : pour des requêtes réalistes, le fait attendu ressort-il dans le top-k ? Métriques recall@k, MRR, rang #1 (discriminabilité), via le vrai chemin de recherche (search_memory). Lecture seule : diagnostique, n'écrit aucun fait.

Procédure

Localiser le vault du projet courant :

bash -c 'source ${CLAUDE_PLUGIN_ROOT%/}/scripts/lib.sh; sm_vault_clone_for_slug "$(sm_slug "${CLAUDE_PROJECT_DIR:-$PWD}")"'

Si rien n'est renvoyé, demander de lancer /memory-setup d'abord.

Générer des requêtes réalistes : lire les faits (nom + description) du vault. Pour chaque fait, formuler 1-2 requêtes telles qu'un humain les poserait (questions / mots-clés métier, pas la description recopiée). Écrire un fichier cas.json (dans un tmp) au format [{"query": "<requête>", "expect": "<name-du-fait>"}] (avec Write).

Lancer l'éval :

python3 ${CLAUDE_PLUGIN_ROOT%/}/scripts/eval-recall.py "<clone>" --cases "<cas.json>"

Présenter le rapport : recall@k, MRR, rang #1, et la liste des ratés (faits absents du top-k). Pour chaque raté ou faiblesse, proposer une piste :
- description peu discriminante → /memory-lint (signale les descriptions courtes) ;
- deux faits confusables (l'un masque l'autre) → dédup / fusion ;
- rapport en mode grep (fastembed absent) → /memory-doctor pour l'éval sémantique ;
- fait douteux/périmé → /memory-refresh.
Comparaison auto (optionnel) : python3 ${CLAUDE_PLUGIN_ROOT%/}/scripts/eval-recall.py "<clone>" (sans --cases) donne la base « chaque description retrouve-t-elle son fait ? » (retrievabilité / confusabilité), utile pour repérer les doublons.

Points d'attention

Lecture seule : ce skill mesure, il ne modifie aucun fait ; la remédiation passe par les autres skills.
Requêtes réalistes : ne pas recopier la description (l'éval deviendrait triviale) ; varier les formulations comme un vrai utilisateur.
Mode grep : sans fastembed, le recall est un proxy lexical faible — le rapport l'indique.

Ressources

${CLAUDE_PLUGIN_ROOT}/scripts/eval-recall.py — moteur d'éval (recall@k / MRR / ratés).
${CLAUDE_PLUGIN_ROOT}/scripts/lib.sh — résolution du vault.
/memory-lint, /memory-doctor, /memory-refresh — remédiations selon le diagnostic.

memory-eval

Popularity

Invocation

Tool Access

Context Preview

SKILL.md

memory-eval

Popularity

Invocation

Tool Access

Context Preview

SKILL.md

memory-eval — Évaluer la qualité du rappel

Procédure

Points d'attention

Ressources

Similar Skills

memory-eval — Évaluer la qualité du rappel

Procédure

Points d'attention

Ressources

Similar Skills