llm-eval-designer
LLM生成システムの検証設計スキル。assay-kitフレームワークを活用し、LLM特有の失敗モード(幻覚、例への過学習、部分的処理)を考慮した総合的なテストケース設計を支援する。使用タイミング:- LLMベースのワークフロー/エージェントの評価設計時- ゴールデンデータセット(golden-dataset.yaml)の設計・拡張時- 既存テストが特定パターンに過学習していないか検証時- LLM出
Also installable via skills CLI
npx skills add CAPHTECH/claude-marketplace/caphtech-plugin/skills/llm-eval-designer