PDF 表格
基类: BaseReader
PDF 表格阅读器。从 PDF 读取表格。
参数
名称
类型 | 描述 | 默认值 | row_separator |
---|---|---|---|
str
|
用于连接 DataFrame 行的行分隔符。
|
'\n' |
col_separator
|
用于连接 DataFrame 列的列分隔符。
|
用于连接 DataFrame 行的行分隔符。
|
源码位于 |
', '
|
load_data #
11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 |
|
加载数据并从 PDF 文件中提取表格。
load_data(file: Path, pages: str = '1', extra_info: Optional[Dict] = None) -> List[Document]
file
名称
类型 | 描述 | 默认值 | row_separator |
---|---|---|---|
Path
|
PDF 文件路径。
|
必需 |
pages |
从中读取表格的页码。
|
用于连接 DataFrame 行的行分隔符。
|
extra_info |
'1'
|
可选[Dict]
|
额外信息。
|
返回值 |
工作流运行检查点
|
List[Document]
描述 | 默认值 |
---|---|
List[Document]: 文档列表。
|
回到顶部 |
load_data #
32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 |
|