Modules
CMDC Agent 评测框架(benchmark harness)—— 接公开基准 + 自定义 suite。
单个评测用例 struct。
Eval Run 聚合报告 + JSONL 输出。
单个 case 的运行结果。
Eval Runner —— 并发跑 case + 调 CMDC Agent + 收集 Run + 输出 Report。
Eval Suite behaviour —— 每个 Suite(如 BFCL / tau2-bench / internal)实现 3 callback。
Berkeley Function Calling Leaderboard v3 (BFCL) Suite —— 占位实现 + fixtures 接入路径。
Internal Suite —— 验证 cmdc 内部特性。
Mix Tasks
跑 cmdc_eval Suite + 输出 JSONL 报告。
从 Berkeley Function Calling Leaderboard v3 上游公开仓库拉取 fixtures 并转换为 cmdc_eval 内部 JSONL 格式。