索引
节点解析器接口。
BaseExtractor #
基础类: TransformComponent
元数据提取器。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
is_text_node_only
|
bool
|
|
True
|
show_progress
|
bool
|
是否显示进度。 |
True
|
metadata_mode
|
MetadataMode
|
读取节点时使用的元数据模式。 |
<MetadataMode.ALL: 'all'>
|
node_text_template
|
str
|
表示节点文本与元数据文本混合方式的模板。 |
'[Excerpt from document]\n{metadata_str}\nExcerpt:\n-----\n{content}\n-----\n'
|
disable_template_rewrite
|
bool
|
禁用节点模板重写。 |
False
|
in_place
|
bool
|
是否原位处理节点。 |
True
|
num_workers
|
int
|
用于并发异步处理的工作器数量。 |
4
|
源代码位于 llama-index-core/llama_index/core/extractors/interface.py
22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 |
|
class_name classmethod
#
class_name() -> str
获取类名。
源代码位于 llama-index-core/llama_index/core/extractors/interface.py
73 74 75 76 |
|
aextract abstractmethod
async
#
aextract(nodes: Sequence[BaseNode]) -> List[Dict]
提取节点序列的元数据,返回与每个节点对应的元数据字典列表。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
nodes
|
Sequence[Document]
|
从中提取元数据的节点 |
required |
源代码位于 llama-index-core/llama_index/core/extractors/interface.py
78 79 80 81 82 83 84 85 86 87 |
|
extract #
extract(nodes: Sequence[BaseNode]) -> List[Dict]
提取节点序列的元数据,返回与每个节点对应的元数据字典列表。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
nodes
|
Sequence[Document]
|
从中提取元数据的节点 |
required |
源代码位于 llama-index-core/llama_index/core/extractors/interface.py
89 90 91 92 93 94 95 96 97 98 |
|
aprocess_nodes async
#
aprocess_nodes(nodes: Sequence[BaseNode], excluded_embed_metadata_keys: Optional[List[str]] = None, excluded_llm_metadata_keys: Optional[List[str]] = None, **kwargs: Any) -> List[BaseNode]
后处理从文档解析的节点。
允许提取器链式调用。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
nodes
|
List[BaseNode]
|
需要后处理的节点 |
required |
excluded_embed_metadata_keys
|
Optional[List[str]]
|
从嵌入元数据中排除的键 |
无
|
excluded_llm_metadata_keys
|
Optional[List[str]]
|
从 LLM 元数据中排除的键 |
无
|
源代码位于 llama-index-core/llama_index/core/extractors/interface.py
100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 |
|
acall async
#
后处理从文档解析的节点。
允许提取器链式调用。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
nodes
|
List[BaseNode]
|
需要后处理的节点 |
required |
源代码位于 llama-index-core/llama_index/core/extractors/interface.py
168 169 170 171 172 173 174 175 176 177 178 |
|