mix cmdc.eval (cmdc_eval v0.1.0)

Copy Markdown View Source

跑 cmdc_eval Suite + 输出 JSONL 报告。

用法

$ mix cmdc.eval --suite=internal --model="anthropic:claude-sonnet-4-5"
$ mix cmdc.eval --suite=bfcl --model="openai:gpt-4o" --report=bfcl.jsonl
$ mix cmdc.eval --suite=internal --concurrency=8 --timeout=120000

选项

  • --suite=<name> 必填。可选值:internal / bfcl / 任意完整模块名 (如 Elixir.CMDCEval.Suites.Internal
  • --model=<id> 必填。如 anthropic:claude-sonnet-4-5
  • --report=<path> 可选。JSONL 报告输出路径(默认不写文件)
  • --concurrency=<n> 可选。并发跑 case 数(默认 4)
  • --timeout=<ms> 可选。单 case 超时毫秒数(默认 60000)

退出码

  • 0 —— 所有 case pass
  • 1 —— 有 case 失败
  • 2 —— Suite 无 case(如 BFCL fixtures 未 fetch)
  • 3 —— Suite 模块不存在或非法