文档导入前处理 behaviour。
复杂 OCR、版面解析、表格抽取等能力可以通过 Python sidecar 或其他服务实现 为 preprocessor,再把提取后的文本交给 Arcana ingest。
Summary
Callbacks
@callback prepare( CMDCRAGArcana.Ingestion.JobSpec.t(), keyword() ) :: {:ok, CMDCRAGArcana.Ingestion.JobSpec.t()} | {:error, term()}