加载数据#
LlamaIndex 中数据摄取的关键是加载和转换。加载 Document 后,可以通过转换对其进行处理并输出 Node。
在我们的理解部分了解数据加载基础知识后,您可以继续阅读以了解更多信息:
加载#
- SimpleDirectoryReader,我们的内置加载器,用于从本地目录加载各种文件类型
- LlamaParse,LlamaIndex 的官方 PDF 解析工具,作为托管 API 提供。
- LlamaHub,我们的数据加载库注册中心,包含数百个库,用于从任何源摄取数据
转换#
这包括文本分割等常见操作。
- Node Parser Usage Pattern,向您展示如何使用我们的节点解析器
- Node Parser Modules,展示我们的文本分割器(句子、token、HTML、JSON)和其他解析器模块。
整合一切#
- 摄取管道,允许您设置一个可重复、缓存优化的数据加载过程。
抽象#
- Document 和 Node 对象以及如何为更高级的使用案例自定义它们