PDF 标记器
PDFMarkerReader #
基类: BaseReader
PDF 标记器读取器。读取 PDF 并将其转换为 Markdown 格式和带有布局的表格。
源代码位于 llama-index-integrations/readers/llama-index-readers-pdf-marker/llama_index/readers/pdf_marker/base.py
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 |
|
load_data #
load_data(file: Path, max_pages: int = None, langs: List[str] = None, batch_multiplier: int = 2, start_page: int = None, extra_info: Optional[Dict] = None) -> List[Document]
从 PDF 加载数据 参数:file (Path):PDF 文件路径。max_pages (int):要处理的最大页数。省略此参数将转换整个文档。langs (List[str]):用于 OCR 的语言列表。请参阅支持的语言:https://github.com/VikParuchuri/surya/blob/master/surya/languages.py batch_multiplier (int):如果有额外的显存,将默认批次大小乘以多少。更高的数值会占用更多显存,但处理速度更快。默认设置为 2。默认批次大小将占用约 3GB 显存。start_page (int):转换的起始页。
返回
类型 | 描述 |
---|---|
列表[文档]
|
List[Document]:文档列表。 |
源代码位于 llama-index-integrations/readers/llama-index-readers-pdf-marker/llama_index/readers/pdf_marker/base.py
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 |
|