文档导入前处理 behaviour。
复杂 OCR、版面解析、表格抽取等能力可以通过企业解析服务、离线导入流程或 Elixir parser 实现为 preprocessor,再把提取后的文本交给 Arcana ingest。
Summary
Callbacks
@callback prepare( CMDCRAGArcana.Ingestion.JobSpec.t(), keyword() ) :: {:ok, CMDCRAGArcana.Ingestion.JobSpec.t() | CMDCRAGArcana.Ingestion.ParsedDocument.t() | map()} | {:error, term()}