Html
节点解析器.
HTMLNodeParser #
基类: NodeParser
HTML 节点解析器.
使用自定义 HTML 分割逻辑将文档分割为节点.
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
include_metadata
|
bool
|
是否在节点中包含元数据 |
必需 |
include_prev_next_rel
|
bool
|
是否包含上一个/下一个关系 |
必需 |
tags
|
列表[字符串]
|
用于从中提取文本的 HTML 标签. |
['p', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'li', 'b', 'i', 'u', 'section']
|
源代码位于 llama-index-core/llama_index/core/node_parser/file/html.py
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 |
|
class_name 类方法
#
class_name() -> str
获取类名.
源代码位于 llama-index-core/llama_index/core/node_parser/file/html.py
50 51 52 53 |
|
get_nodes_from_node #
从文档获取节点.
源代码位于 llama-index-core/llama_index/core/node_parser/file/html.py
70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 |
|