CMDCRAGArcana.Ingestion.Preprocessor behaviour (cmdc_rag_arcana v0.2.0)

Copy Markdown View Source

文档导入前处理 behaviour。

复杂 OCR、版面解析、表格抽取等能力可以通过 Python sidecar 或其他服务实现 为 preprocessor,再把提取后的文本交给 Arcana ingest。

Summary

Callbacks

prepare(t, keyword)

@callback prepare(
  CMDCRAGArcana.Ingestion.JobSpec.t(),
  keyword()
) :: {:ok, CMDCRAGArcana.Ingestion.JobSpec.t()} | {:error, term()}