索引
数据集模块。
BaseLlamaDataExample #
基类:BaseModel
基础 Llama 数据集示例类。
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
65 66 67 68 69 70 71 72 |
|
BaseLlamaDataset #
基类:BaseModel
, Generic[P]
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
examples
|
List[BaseLlamaDataExample]
|
此数据集的数据示例。 |
[]
|
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 |
|
to_pandas 抽象方法
#
to_pandas() -> Any
创建 pandas 数据帧。
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
149 150 151 |
|
save_json #
save_json(path: str) -> None
保存 json。
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
153 154 155 156 157 158 159 160 161 |
|
from_json 类方法
#
from_json(path: str) -> BaseLlamaDataset
加载 json。
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
163 164 165 166 167 168 169 170 171 172 173 |
|
make_predictions_with #
make_predictions_with(predictor: P, show_progress: bool = False, batch_size: int = 20, sleep_time_in_seconds: int = 0) -> BaseLlamaPredictionDataset
使用给定的查询引擎进行预测。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
predictor
|
PredictorType
|
用于进行预测的预测器。 |
必需 |
show_progress
|
bool
|
显示预测进度。 |
否
|
batch_size
|
int
|
用于批量处理异步调用,特别是为了减少达到 openai 的 RateLimitError 的几率。 |
20
|
sleep_time_in_seconds
|
int
|
批量调用之间休眠的时间,以减少达到 openai 的 RateLimitError 的几率。 |
0
|
返回
名称 | 类型 | 描述 |
---|---|---|
BaseLlamaPredictionDataset |
BaseLlamaPredictionDataset
|
一个预测数据集。 |
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 |
|
amake_predictions_with 异步
#
amake_predictions_with(predictor: P, show_progress: bool = False, batch_size: int = 20, sleep_time_in_seconds: int = 1) -> BaseLlamaPredictionDataset
使用给定的查询引擎进行异步预测。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
predictor
|
PredictorType
|
用于进行预测的预测器。 |
必需 |
show_progress
|
bool
|
显示预测进度。 |
否
|
batch_size
|
int
|
用于批量处理异步调用,特别是为了减少达到 openai 的 RateLimitError 的几率。 |
20
|
sleep_time_in_seconds
|
int
|
批量调用之间休眠的时间,以减少达到 openai 的 RateLimitError 的几率。 |
1
|
返回
名称 | 类型 | 描述 |
---|---|---|
BaseLlamaPredictionDataset |
BaseLlamaPredictionDataset
|
一个预测数据集。 |
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 |
|
BaseLlamaExamplePrediction #
基类:BaseModel
基础 Llama 数据集示例类。
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
55 56 57 58 59 60 61 62 |
|
BaseLlamaPredictionDataset #
基类:BaseModel
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
predictions
|
List[BaseLlamaExamplePrediction]
|
对 train_examples 的预测。 |
<动态>
|
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 |
|
to_pandas 抽象方法
#
to_pandas() -> Any
创建 pandas 数据帧。
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
91 92 93 |
|
save_json #
save_json(path: str) -> None
保存 json。
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
95 96 97 98 99 100 101 102 103 104 105 106 107 |
|
from_json 类方法
#
from_json(path: str) -> BaseLlamaPredictionDataset
加载 json。
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
109 110 111 112 113 114 115 116 117 118 119 120 121 |
|
CreatedBy #
基类:BaseModel
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
类型
|
CreatedByType
|
|
必需 |
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
41 42 43 44 45 46 47 48 49 50 51 52 |
|
CreatedByType #
基类:str
, Enum
不同类型的 RAG 数据示例。
源代码位于 llama-index-core/llama_index/core/llama_dataset/base.py
31 32 33 34 35 36 37 38 |
|
EvaluatorExamplePrediction #
评估示例预测类。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
feedback
|
Optional[str]
|
评估器的反馈。 |
必需 |
score
|
Optional[float]
|
评估器的评分。 |
无
|
invalid_prediction
|
bool
|
预测是否有效。 |
否
|
invalid_reason
|
str | None
|
预测无效的原因。 |
无
|
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 |
|
EvaluatorPredictionDataset #
评估预测数据集类。
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 |
|
to_pandas #
to_pandas() -> Any
创建 pandas 数据帧。
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 |
|
LabelledEvaluatorDataExample #
评估示例类。
此数据类包含执行新“预测”即评估的要素。此处,评估器用于根据关联的查询以及可选的上下文评估响应。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
query
|
str
|
用户查询 |
必需 |
query_by
|
CreatedBy
|
由人类或 AI(模型名称)生成的查询 |
无
|
contexts
|
Optional[List[str]]
|
用于响应的上下文 |
无
|
answer
|
str
|
待评估的查询答案。 |
必需 |
answer_by
|
CreatedBy | None
|
由人类或 AI(模型名称)生成的参考答案。 |
无
|
ground_truth_answer
|
Optional[str]
|
|
无
|
ground_truth_answer_by
|
Optional[CreatedBy]
|
|
无
|
reference_feedback
|
str
|
参考反馈评估。 |
无
|
reference_score
|
float
|
参考评分评估。 |
<动态>
|
reference_evaluation_by
|
CreatedBy
|
由人类或 AI(模型名称)生成的评估 |
无
|
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 |
|
LabelledEvaluatorDataset #
基类:BaseLlamaDataset[BaseEvaluator]
带标签评估数据集类。
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 |
|
to_pandas #
to_pandas() -> Any
创建 pandas 数据帧。
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 |
|
LabelledPairwiseEvaluatorDataExample #
基类:LabelledEvaluatorDataExample
带标签的成对评估数据示例类。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
second_answer_by
|
CreatedBy | None
|
生成第二个答案的来源。 |
无
|
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 |
|
LabelledPairwiseEvaluatorDataset #
基类:BaseLlamaDataset[BaseEvaluator]
带标签的成对评估数据集。用于评估评估器执行成对评估的能力。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
BaseLlamaDataset
|
_type_
|
描述 |
必需 |
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 |
|
to_pandas #
to_pandas() -> Any
创建 pandas 数据帧。
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 |
|
PairwiseEvaluatorExamplePrediction #
成对评估示例预测类。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
feedback
|
Optional[str]
|
评估器的反馈。 |
必需 |
score
|
Optional[float]
|
评估器的评分。 |
无
|
evaluation_source
|
EvaluationSource
|
评估是来自原始顺序还是翻转顺序;或者不确定。 |
无
|
invalid_prediction
|
bool
|
预测是否有效。 |
否
|
invalid_reason
|
str | None
|
预测无效的原因。 |
无
|
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 |
|
PairwiseEvaluatorPredictionDataset #
成对评估预测数据集类。
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 |
|
to_pandas #
to_pandas() -> Any
创建 pandas 数据帧。
源代码位于 llama-index-core/llama_index/core/llama_dataset/evaluator_evaluation.py
312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 |
|
LabelledRagDataExample #
RAG 示例类。类似于传统的机器学习数据集,此数据集包含用于进行预测的“特征”(即查询 + 上下文)和用于评估预测的“标签”(即响应)。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
query
|
str
|
用户查询 |
必需 |
query_by
|
CreatedBy
|
由人类或 AI(模型名称)生成的查询 |
无
|
reference_contexts
|
Optional[List[str]]
|
用于响应的上下文 |
无
|
reference_answer
|
[str]
|
查询的参考答案。一个在评估时将获得满分的答案。 |
必需 |
reference_answer_by
|
CreatedBy | None
|
由人类或 AI(模型名称)生成的参考答案。 |
无
|
源代码位于 llama-index-core/llama_index/core/llama_dataset/rag.py
44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 |
|
LabelledRagDataset #
基类:BaseLlamaDataset[BaseQueryEngine]
RagDataset 类。
源代码位于 llama-index-core/llama_index/core/llama_dataset/rag.py
118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 |
|
to_pandas #
to_pandas() -> Any
创建 pandas 数据帧。
源代码位于 llama-index-core/llama_index/core/llama_dataset/rag.py
123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 |
|
RagExamplePrediction #
RAG 示例预测类。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
response
|
str
|
由大型语言模型生成的响应。 |
''
|
contexts
|
Optional[List[str]]
|
用于生成响应的检索到的上下文(文本)。 |
无
|
源代码位于 llama-index-core/llama_index/core/llama_dataset/rag.py
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 |
|
RagPredictionDataset #
RagDataset 类。
源代码位于 llama-index-core/llama_index/core/llama_dataset/rag.py
84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 |
|
to_pandas #
to_pandas() -> Any
创建 pandas 数据帧。
源代码位于 llama-index-core/llama_index/core/llama_dataset/rag.py
89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 |
|
download_llama_dataset #
download_llama_dataset(llama_dataset_class: str, download_dir: str, llama_datasets_url: str = LLAMA_DATASETS_URL, llama_datasets_lfs_url: str = LLAMA_DATASETS_LFS_URL, llama_datasets_source_files_tree_url: str = LLAMA_DATASETS_SOURCE_FILES_GITHUB_TREE_URL, show_progress: bool = False, load_documents: bool = True) -> Tuple[BaseLlamaDataset, List[Document]]
从 datasets-LFS 和 llamahub 下载数据集。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
dataset_class
|
您想下载的 llamadataset 类名称,例如 |
必需 | |
custom_dir
|
下载读取器到指定目录名(在父文件夹下)。 |
必需 | |
custom_path
|
下载读取器到指定目录路径。 |
必需 | |
llama_datasets_url
|
str
|
用于从 llama_datasets 仓库获取普通文件的 Url |
LLAMA_DATASETS_URL
|
llama_datasets_lfs_url
|
str
|
用于获取 llama_datasets 仓库中 lfs 跟踪文件的 Url |
LLAMA_DATASETS_LFS_URL
|
llama_datasets_source_files_tree_url
|
str
|
用于列出 source_files 内容的 Url |
LLAMA_DATASETS_SOURCE_FILES_GITHUB_TREE_URL
|
refresh_cache
|
如果为 true,将跳过本地缓存,直接从远程仓库获取读取器。 |
必需 | |
source_files_dirpath
|
存储源文件的目录 |
必需 | |
library_path
|
库文件的文件名。 |
必需 | |
base_file_name
|
RAG 数据集 json 文件 |
必需 | |
disable_library_cache
|
控制库缓存的布尔值 |
必需 | |
override_path
|
控制覆盖路径的布尔值 |
必需 | |
show_progress
|
bool
|
显示下载源文件进度的布尔值 |
否
|
load_documents
|
bool
|
一个布尔值,指示是否应加载 LabelledRagDataset 的 source_files。 |
是
|
返回
类型 | 描述 |
---|---|
元组[BaseLlamaDataset, 列表[文档]]
|
一个 |
源代码位于 llama-index-core/llama_index/core/llama_dataset/download.py
35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 |
|