智能 PDF 加载器
SmartPDFLoader #
基类: BaseReader
SmartPDFLoader 利用嵌套布局信息(如章节、段落、列表和表格)智能地分块 PDF,以优化 LLM 上下文窗口的使用。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
llmsherpa_api_url
|
str
|
托管 llmsherpa PDF 解析器的服务地址 |
无
|
源代码位于 llama-index-integrations/readers/llama-index-readers-smart-pdf-loader/llama_index/readers/smart_pdf_loader/base.py
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 |
|
load_data #
load_data(pdf_path_or_url: str, extra_info: Optional[Dict] = None) -> List[Document]
加载数据并从 PDF 文件中提取表格。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
pdf_path_or_url
|
str
|
指向 PDF 的 URL 或文件路径 |
必需 |
返回值
类型 | 描述 |
---|---|
List[Document]
|
List[Document]: 文档列表。 |
源代码位于 llama-index-integrations/readers/llama-index-readers-smart-pdf-loader/llama_index/readers/smart_pdf_loader/base.py
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 |
|