CMDCRAGArcana.Ingestion.ParsedDocument (cmdc_rag_arcana v0.5.0)

Copy Markdown View Source

OCR / parser 产出的企业文档解析 artifact。

cmdc_rag_arcana 不实现复杂 OCR 或版面解析,但定义统一 artifact,便于 企业解析服务、Elixir parser 或人工导入流程把页码、表格和来源定位传给 Arcana ingest metadata。

Summary

Functions

构建 parsed document artifact。

转为可放入 Arcana document metadata 的 map。

Types

t()

@type t() :: %CMDCRAGArcana.Ingestion.ParsedDocument{
  checksum: String.t() | nil,
  content_type: String.t() | nil,
  metadata: map(),
  pages: [CMDCRAGArcana.Ingestion.ParsedPage.t()],
  source_map: [map()],
  source_uri: String.t() | nil,
  tables: [CMDCRAGArcana.Ingestion.ParsedTable.t()],
  text: String.t()
}

Functions

new(artifact)

@spec new(t() | map() | keyword()) :: t()

构建 parsed document artifact。

to_metadata(artifact)

@spec to_metadata(t()) :: map()

转为可放入 Arcana document metadata 的 map。