llm-eval-designer

LLM生成システムの検証設計スキル。assay-kitフレームワークを活用し、LLM特有の失敗モード（幻覚、例への過学習、部分的処理）を考慮した総合的なテストケース設計を支援する。使用タイミング:- LLMベースのワークフロー/エージェントの評価設計時- ゴールデンデータセット（golden-dataset.yaml）の設計・拡張時- 既存テストが特定パターンに過学習していないか検証時- LLM出

by CAPHTECH· Repository·data

Run in AgentArea Browse All Skills

Also installable via skills CLI

npx skills add CAPHTECH/claude-marketplace/caphtech-plugin/skills/llm-eval-designer