ObjectBox 向量存储演示¶
本 Notebook 将演示如何将 ObjectBox 用作高效的设备端向量存储,结合 LlamaIndex 使用。我们将考虑一个简单的 RAG 用例,给定文档后,用户可以提出问题,并从大型语言模型 (LLM) 中获得自然语言的相关答案。RAG 流水线将按照以下垂直领域进行配置
- 来自 LlamaIndex 的内置
SimpleDirectoryReader
读取器 - 来自 LlamaIndex 的内置
SentenceSplitter
节点解析器 - 来自 HuggingFace 的嵌入提供程序模型
- 将 ObjectBox 用作 NoSQL 和向量数据存储
- 将 Google 的 Gemini 用作远程 LLM 服务
1) 安装依赖项¶
我们安装 HuggingFace 和 Gemini 的集成,与 LlamaIndex 一起使用
In [ ]
已复制!
!pip install llama_index_vector_stores_objectbox --quiet
!pip install llama-index --quiet
!pip install llama-index-embeddings-huggingface --quiet
!pip install llama-index-llms-gemini --quiet
!pip install llama_index_vector_stores_objectbox --quiet !pip install llama-index --quiet !pip install llama-index-embeddings-huggingface --quiet !pip install llama-index-llms-gemini --quiet
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0.0/1.6 MB ? eta -:--:-- ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╺━━ 1.5/1.6 MB 40.2 MB/s eta 0:00:01 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.6/1.6 MB 25.4 MB/s eta 0:00:00 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 4.0/4.0 MB 44.0 MB/s eta 0:00:00 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.5/1.5 MB 38.9 MB/s eta 0:00:00 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.1/1.1 MB 37.5 MB/s eta 0:00:00 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 76.4/76.4 kB 5.2 MB/s eta 0:00:00 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 77.9/77.9 kB 4.9 MB/s eta 0:00:00 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 49.3/49.3 kB 3.1 MB/s eta 0:00:00 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 58.3/58.3 kB 3.4 MB/s eta 0:00:00
2) 下载文档¶
In [ ]
已复制!
!mkdir -p 'data/paul_graham/'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'
!mkdir -p 'data/paul_graham/' !wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'
In [ ]
已复制!
from llama_index.llms.gemini import Gemini
import getpass
gemini_key_api = getpass.getpass("Gemini API Key: ")
gemini_llm = Gemini(api_key=gemini_key_api)
from llama_index.llms.gemini import Gemini import getpass gemini_key_api = getpass.getpass("Gemini API Key: ") gemini_llm = Gemini(api_key=gemini_key_api)
In [ ]
已复制!
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
hf_embedding = HuggingFaceEmbedding(model_name="BAAI/bge-base-en-v1.5")
embedding_dim = 384
from llama_index.embeddings.huggingface import HuggingFaceEmbedding hf_embedding = HuggingFaceEmbedding(model_name="BAAI/bge-base-en-v1.5") embedding_dim = 384
5) 准备文档和节点¶
在 RAG 流水线中,第一步是读取给定的文档。我们使用 SimpleDirectoryReader
,它通过检查目录中的文件扩展名来选择最佳的文件读取器。
接下来,我们从 SimpleDirectoryReader
从文档中读取的内容生成块(文本子序列)。SentenceSplitter
是一个文本分割器,它在将文本分割成大小为 chunk_size
的块时保留句子边界。
In [ ]
已复制!
from llama_index.core import SimpleDirectoryReader
from llama_index.core.node_parser import SentenceSplitter
reader = SimpleDirectoryReader("./data/paul_graham")
documents = reader.load_data()
node_parser = SentenceSplitter(chunk_size=512, chunk_overlap=20)
nodes = node_parser.get_nodes_from_documents(documents)
from llama_index.core import SimpleDirectoryReader from llama_index.core.node_parser import SentenceSplitter reader = SimpleDirectoryReader("./data/paul_graham") documents = reader.load_data() node_parser = SentenceSplitter(chunk_size=512, chunk_overlap=20) nodes = node_parser.get_nodes_from_documents(documents)
6) 配置 ObjectBoxVectorStore
¶
ObjectBoxVectorStore
可以通过几个选项进行初始化
embedding_dim
(必填):向量数据库将存储的嵌入维度distance_type
:从COSINE
、DOT_PRODUCT
、DOT_PRODUCT_NON_NORMALIZED
和EUCLIDEAN
中选择db_directory
:应创建.mdb
ObjectBox 数据库文件的目录路径clear_db
:如果数据库文件存在于db_directory
中,则删除现有数据库文件do_log
:启用 ObjectBox 集成的日志记录
In [ ]
已复制!
from llama_index.vector_stores.objectbox import ObjectBoxVectorStore
from llama_index.core import StorageContext, VectorStoreIndex, Settings
from objectbox import VectorDistanceType
vector_store = ObjectBoxVectorStore(
embedding_dim,
distance_type=VectorDistanceType.COSINE,
db_directory="obx_data",
clear_db=False,
do_log=True,
)
storage_context = StorageContext.from_defaults(vector_store=vector_store)
Settings.llm = gemini_llm
Settings.embed_model = hf_embedding
index = VectorStoreIndex(nodes=nodes, storage_context=storage_context)
from llama_index.vector_stores.objectbox import ObjectBoxVectorStore from llama_index.core import StorageContext, VectorStoreIndex, Settings from objectbox import VectorDistanceType vector_store = ObjectBoxVectorStore( embedding_dim, distance_type=VectorDistanceType.COSINE, db_directory="obx_data", clear_db=False, do_log=True, ) storage_context = StorageContext.from_defaults(vector_store=vector_store) Settings.llm = gemini_llm Settings.embed_model = hf_embedding index = VectorStoreIndex(nodes=nodes, storage_context=storage_context)
7) 与文档聊天¶
In [ ]
已复制!
query_engine = index.as_query_engine()
response = query_engine.query("Who is Paul Graham?")
print(response)
query_engine = index.as_query_engine() response = query_engine.query("Who is Paul Graham?") print(response)
In [ ]
已复制!
retriever = index.as_retriever()
response = retriever.retrieve("What did the author do growing up?")
for node in response:
print("Retrieved chunk text:\n", node.node.get_text())
print("Retrieved chunk metadata:\n", node.node.get_metadata_str())
print("\n\n\n")
retriever = index.as_retriever() response = retriever.retrieve("What did the author do growing up?") for node in response: print("Retrieved chunk text:\n", node.node.get_text()) print("Retrieved chunk metadata:\n", node.node.get_metadata_str()) print("\n\n\n")
可选:使用 delete_nodes
删除与单个查询相关的块¶
我们可以使用 ObjectBoxVectorStore.delete_nodes
方法从向量数据库中删除块(节点),该方法接受包含节点 ID 的列表作为参数。
In [ ]
已复制!
response = retriever.retrieve("What did the author do growing up?")
node_ids = []
for node in response:
node_ids.append(node.node_id)
print(f"Nodes to be removed: {node_ids}")
print(f"No. of vectors before deletion: {vector_store.count()}")
vector_store.delete_nodes(node_ids)
print(f"No. of vectors after deletion: {vector_store.count()}")
response = retriever.retrieve("What did the author do growing up?") node_ids = [] for node in response: node_ids.append(node.node_id) print(f"待删除的节点ID: {node_ids}") print(f"删除前的向量数量: {vector_store.count()}") vector_store.delete_nodes(node_ids) print(f"删除后的向量数量: {vector_store.count()}")
可选:从向量数据库中删除单个文档¶
可以使用 ObjectBoxVectorStore.delete
方法删除与给定文档 id_
相关联的块(节点)。
In [ ]
已复制!
document = documents[0]
print(f"Document to be deleted {document.id_}")
print(f"No. of vectors before deletion: {vector_store.count()}")
vector_store.delete(document.id_)
print(f"No. of vectors after document deletion: {vector_store.count()}")
document = documents[0] print(f"待删除的文档: {document.id_}") print(f"删除前的向量数量: {vector_store.count()}") vector_store.delete(document.id_) print(f"文档删除后的向量数量: {vector_store.count()}")