文件
CSVReader #
继承自: BaseReader
CSV 解析器。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
concat_rows
|
bool
|
是否将所有行连接到一个文档中。如果设置为 False,则会为每一行创建一个 Document。默认为 True。 |
True
|
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/tabular/base.py
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None) -> List[Document]
解析文件。
返回值
类型 | 描述 |
---|---|
List[Document]
|
Union[str, List[str]]: 一个字符串或一个字符串列表。 |
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/tabular/base.py
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 |
|
DocxReader #
继承自: BaseReader
Docx 解析器。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/docs/base.py
101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/docs/base.py
104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 |
|
EpubReader #
继承自: BaseReader
Epub 解析器。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/epub/base.py
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/epub/base.py
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 |
|
FlatReader #
继承自: BaseReader
Flat 阅读器。
从文件中提取原始文本并将文件类型保存在元数据中
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/flat/base.py
11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
将文件解析为字符串。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/flat/base.py
33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 |
|
HTMLTagReader #
继承自: BaseReader
读取 HTML 文件并使用 BeautifulSoup 从特定标签中提取文本。
默认情况下,从 <section>
标签读取文本。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/html/base.py
11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 |
|
HWPReader #
继承自: BaseReader
Hwp 解析器。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/docs/base.py
134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
从 Hwp 文件加载数据并提取表格。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
file
|
Path
|
Hwp 文件的路径。 |
必需 |
返回值
类型 | 描述 |
---|---|
List[Document]
|
List[Document] |
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/docs/base.py
146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 |
|
IPYNBReader #
继承自: BaseReader
图像解析器。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/ipynb/base.py
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/ipynb/base.py
22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 |
|
ImageCaptionReader #
继承自: BaseReader
图像解析器。
使用 Blip 生成图像字幕。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/image_caption/base.py
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None) -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/image_caption/base.py
59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 |
|
ImageReader #
继承自: BaseReader
图像解析器。
使用 DONUT 或 pytesseract 从图像中提取文本。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/image/base.py
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/image/base.py
75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 |
|
ImageTabularChartReader #
继承自: BaseReader
图像解析器。
从图表或图形中提取表格数据。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/image_deplot/base.py
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None) -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/image_deplot/base.py
57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 |
|
ImageVisionLLMReader #
继承自: BaseReader
图像解析器。
使用 Blip2 (类似于 GPT4 的多模态 VisionLLM) 生成图像字幕。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/image_vision_llm/base.py
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None) -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/image_vision_llm/base.py
64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 |
|
MarkdownReader #
继承自: BaseReader
Markdown 解析器。
从 Markdown 文件中提取文本。返回一个字典,其中键是标题,值是标题之间的文本。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/markdown/base.py
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 |
|
markdown_to_tups #
markdown_to_tups(markdown_text: str) -> List[Tuple[Optional[str], str]]
将 Markdown 文件转换为包含标题和文本的元组列表。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/markdown/base.py
39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 |
|
remove_images #
remove_images(content: str) -> str
删除 Markdown 内容中的图像,但保留描述。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/markdown/base.py
103 104 105 106 |
|
remove_hyperlinks #
remove_hyperlinks(content: str) -> str
删除 Markdown 内容中的超链接。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/markdown/base.py
108 109 110 111 |
|
parse_tups #
parse_tups(filepath: str, errors: str = 'ignore', fs: Optional[AbstractFileSystem] = None) -> List[Tuple[Optional[str], str]]
将文件解析为元组。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/markdown/base.py
117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 |
|
load_data #
load_data(file: str, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
将文件解析为字符串。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/markdown/base.py
133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 |
|
MboxReader #
继承自: BaseReader
Mbox 解析器。
从邮箱文件中提取消息。返回一个字符串,包含每条消息的日期、主题、发件人、收件人和内容。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/mbox/base.py
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
将文件解析为字符串。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/mbox/base.py
56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 |
|
PDFReader #
继承自: BaseReader
PDF 解析器。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/docs/base.py
28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/docs/base.py
37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 |
|
PagedCSVReader #
继承自: BaseReader
分页 CSV 解析器。
在单独的文档中以对 LLM 友好的格式显示每一行。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
encoding
|
str
|
用于打开文件的编码。默认为 utf-8。 |
'utf-8'
|
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/paged_csv/base.py
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, delimiter: str = ',', quotechar: str = '"') -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/paged_csv/base.py
32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 |
|
PandasCSVReader #
继承自: BaseReader
基于 Pandas 的 CSV 解析器。
使用 Pandas read_csv
函数的分隔符检测功能解析 CSV。如果需要特殊参数,请使用 pandas_config
字典。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
concat_rows
|
bool
|
是否将所有行连接到一个文档中。如果设置为 False,则会为每一行创建一个 Document。默认为 True。 |
True
|
col_joiner
|
str
|
用于连接每行各列的分隔符。默认为 ", "。 |
', '
|
row_joiner
|
str
|
用于连接每行的分隔符。仅在 |
'\n'
|
pandas_config
|
dict
|
`pandas.read_csv` 函数调用的选项。更多信息请参阅 https://pandas.ac.cn/docs/reference/api/pandas.read_csv.html。默认为空字典,这意味着 pandas 将尝试自行识别分隔符、表头等。 |
{}
|
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/tabular/base.py
64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/tabular/base.py
107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 |
|
解析文件。
继承自: BaseReader
PandasExcelReader #
自定义 Excel 解析器,在每一行中包含列头名称。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
concat_rows
|
bool
|
使用 Pandas 的 |
True
|
确定是否将所有行连接到一个文档中。如果设置为 False,则会为每一行创建一个 Document。默认为 True。
|
str | int | None
|
默认为 None,表示所有工作表。或者,传递一个字符串或整数来指定要读取的工作表。 |
无
|
field_separator
|
str
|
用于分隔每个字段的字符或字符串。默认值: ", "。 |
', '
|
key_value_separator
|
str
|
用于分隔键和值的字符或字符串。默认值: ": "。 |
': '
|
pandas_config
|
dict
|
`pandas.read_excel` 函数调用的选项。更多详细信息请参阅 https://pandas.ac.cn/docs/reference/api/pandas.read_excel.html。默认为空字典。 |
{}
|
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/tabular/base.py
136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/tabular/base.py
177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 |
|
PptxReader #
继承自: BaseReader
Powerpoint 解析器。
提取文本、图像字幕和指定幻灯片。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/slides/base.py
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 |
|
caption_image #
caption_image(tmp_image_file: str) -> str
生成图像的文本字幕。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/slides/base.py
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
解析文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/slides/base.py
90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 |
|
PyMuPDFReader #
继承自: BaseReader
使用 PyMuPDF 库读取 PDF 文件。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/pymu_pdf/base.py
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 |
|
load_data #
load_data(file_path: Union[Path, str], metadata: bool = True, extra_info: Optional[Dict] = None) -> List[Document]
从 PDF 文件加载文档列表,并接受字典格式的额外信息。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/pymu_pdf/base.py
13 14 15 16 17 18 19 20 |
|
load #
load(file_path: Union[Path, str], metadata: bool = True, extra_info: Optional[Dict] = None) -> List[Document]
从 PDF 文件加载文档列表,并接受字典格式的额外信息。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
file_path
|
Union[Path, str]
|
PDF 文件的路径 (接受字符串或 Path)。 |
必需 |
metadata
|
bool
|
是否包含元数据。默认为 True。 |
True
|
extra_info
|
Optional[Dict]
|
与每个文档相关的额外信息,字典格式。默认为 None。 |
无
|
抛出
类型 | 描述 |
---|---|
TypeError
|
如果 extra_info 不是字典。 |
TypeError
|
如果 file_path 不是字符串或 Path。 |
返回值
类型 | 描述 |
---|---|
List[Document]
|
List[Document]: 文档列表。 |
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/pymu_pdf/base.py
22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 |
|
RTFReader #
继承自: BaseReader
RTF (富文本格式) 阅读器。读取 rtf 文件并转换为 Document。
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/rtf/base.py
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 |
|
load_data #
load_data(input_file: Union[Path, str], extra_info: Optional[Dict[str, Any]] = None, **load_kwargs: Any) -> List[Document]
从 RTF 文件加载数据。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
input_file
|
Path | str
|
RTF 文件的路径。 |
必需 |
extra_info
|
Dict[str, Any]
|
RTF 文件的路径。 |
无
|
返回值
类型 | 描述 |
---|---|
List[Document]
|
List[Document]: 文档列表。 |
源码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/rtf/base.py
12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 |
|
UnstructuredReader #
继承自: BaseReader
通用的非结构化文本阅读器,适用于多种文件。
源代码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/unstructured/base.py
24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 |
|
from_api classmethod
#
from_api(api_key: str, url: str = None)
设置服务器URL和API密钥。
源代码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/unstructured/base.py
71 72 73 74 |
|
load_data #
load_data(file: Optional[Path] = None, unstructured_kwargs: Optional[Dict] = None, document_kwargs: Optional[Dict] = None, extra_info: Optional[Dict] = None, split_documents: Optional[bool] = False, excluded_metadata_keys: Optional[List[str]] = None) -> List[Document]
使用Unstructured.io加载数据。
根据配置,如果设置了url或use_api为True,它将使用API调用来解析文件,否则在本地解析。如果split_documents为True,extra_info会由返回的元数据扩展。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
file
|
Optional[Path]
|
要加载的文件的路径。 |
无
|
unstructured_kwargs
|
Optional[Dict]
|
用于非结构化分区的附加参数。 |
无
|
document_kwargs
|
Optional[Dict]
|
用于文档创建的附加参数。 |
无
|
extra_info
|
Optional[Dict]
|
要添加到文档元数据的额外信息。 |
无
|
split_documents
|
Optional[bool]
|
是否分割文档。 |
False
|
excluded_metadata_keys
|
Optional[List[str]]
|
从元数据中排除的键。 |
无
|
返回值
类型 | 描述 |
---|---|
List[Document]
|
List[Document]: 解析后的文档列表。 |
源代码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/unstructured/base.py
76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 |
|
VideoAudioReader #
继承自: BaseReader
视频音频解析器。
从视频/音频文件的转录文本中提取文本。
源代码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/video_audio/base.py
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None, fs: Optional[AbstractFileSystem] = None) -> List[Document]
解析文件。
源代码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/video_audio/base.py
45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 |
|
XMLReader #
继承自: BaseReader
XML阅读器。
读取XML文档,提供选项以帮助理清节点之间的关系。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
tree_level_split
|
int
|
从XML树的哪个级别分割文档, |
0
|
源代码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/xml/base.py
39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 |
|
load_data #
load_data(file: Path, extra_info: Optional[Dict] = None) -> List[Document]
从输入文件加载数据。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
file
|
Path
|
输入文件的路径。 |
必需 |
extra_info
|
Optional[Dict]
|
附加信息。默认为None。 |
无
|
返回值
类型 | 描述 |
---|---|
List[Document]
|
List[Document]: 文档列表。 |
源代码位于 llama-index-integrations/readers/llama-index-readers-file/llama_index/readers/file/xml/base.py
80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 |
|