Lilac
LilacReader #
基类:BaseReader
Lilac 数据集阅读器。
源代码位于 llama-index-integrations/readers/llama-index-readers-lilac/llama_index/readers/lilac/base.py
11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 |
|
load_data #
load_data(dataset: str, text_path: Path = 'text', doc_id_path: Optional[Path] = 'doc_id', columns: Optional[List[ColumnId]] = None, filters: Optional[List[FilterLike]] = None, project_dir: Optional[str] = None) -> List[Document]
根据搜索关键词,从相关的 subreddit 帖子和顶级评论中加载文本。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
project_dir
|
Optional[str]
|
要读取的 Lilac 项目目录。如果未定义,则使用 |
None
|
text_path
|
Path
|
数据集中文本字段的路径。如果未定义,则使用 'text'。 |
'text'
|
columns
|
Optional[List[ColumnId]]
|
要从数据集中加载的列。如果未定义,则加载所有列。 |
None
|
dataset
|
str
|
要加载的数据集。格式应为 {namespace}/{dataset_name}。 |
必需 |
filters
|
Optional[Filter]
|
在加载到文档之前应用于数据集的过滤器。对于筛选标记数据很有用。 |
None
|
源代码位于 llama-index-integrations/readers/llama-index-readers-lilac/llama_index/readers/lilac/base.py
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 |
|