OCR / parser sidecar 产出的企业文档解析 artifact。
cmdc_rag_arcana 不实现复杂 OCR 或版面解析,但定义统一 artifact,便于
Python sidecar、Elixir parser 或人工导入流程把页码、表格和来源定位传给
Arcana ingest metadata。
Summary
Types
@type t() :: %CMDCRAGArcana.Ingestion.ParsedDocument{ checksum: String.t() | nil, content_type: String.t() | nil, metadata: map(), pages: [CMDCRAGArcana.Ingestion.ParsedPage.t()], source_map: [map()], source_uri: String.t() | nil, tables: [CMDCRAGArcana.Ingestion.ParsedTable.t()], text: String.t() }