API Reference cmdc_eval v#0.1.0

Copy Markdown View Source

Modules

CMDC Agent 评测框架(benchmark harness)—— 接公开基准 + 自定义 suite。

单个评测用例 struct。

Eval Run 聚合报告 + JSONL 输出。

单个 case 的运行结果。

Eval Runner —— 并发跑 case + 调 CMDC Agent + 收集 Run + 输出 Report。

Eval Suite behaviour —— 每个 Suite(如 BFCL / tau2-bench / internal)实现 3 callback。

Berkeley Function Calling Leaderboard v3 (BFCL) Suite —— 占位实现 + fixtures 接入路径。

Internal Suite —— 验证 cmdc 内部特性。

Mix Tasks

跑 cmdc_eval Suite + 输出 JSONL 报告。

从 Berkeley Function Calling Leaderboard v3 上游公开仓库拉取 fixtures 并转换为 cmdc_eval 内部 JSONL 格式。