Milvus 向量存储 - 元数据过滤¶
本 Notebook 演示了如何在 LlamaIndex 中使用 Milvus 向量存储,重点介绍元数据过滤功能。您将学习如何对带有元数据的文档进行索引,使用 LlamaIndex 内置的元数据过滤器执行向量搜索,以及将 Milvus 的原生过滤表达式应用于向量存储。
通过完成本 Notebook,您将了解如何利用 Milvus 的过滤功能,根据文档元数据缩小搜索范围。
! pip install llama-index-vector-stores-milvus llama-index
如果您正在使用 Google Colab,您可能需要重新启动运行时(导航到界面顶部的“运行时”菜单,然后从下拉菜单中选择“重新启动会话”)。
设置账户
本教程使用 OpenAI 进行文本嵌入和答案生成。您需要准备 OpenAI API 密钥。
import openai
openai.api_key = "sk-"
要使用 Milvus 向量存储,请指定您的 Milvus 服务器 URI
(可选包含 TOKEN
)。要启动 Milvus 服务器,您可以按照Milvus 安装指南设置 Milvus 服务器,或者直接免费试用Zilliz Cloud。
URI = "./milvus_filter_demo.db" # Use Milvus-Lite for demo purpose
# TOKEN = ""
准备数据
在此示例中,我们将使用几本标题相似或相同但元数据(作者、体裁和出版年份)不同的书籍作为样本数据。这将有助于演示 Milvus 如何根据向量相似度和元数据属性过滤和检索文档。
from llama_index.core.schema import TextNode
nodes = [
TextNode(
text="Life: A User's Manual",
metadata={
"author": "Georges Perec",
"genre": "Postmodern Fiction",
"year": 1978,
},
),
TextNode(
text="Life and Fate",
metadata={
"author": "Vasily Grossman",
"genre": "Historical Fiction",
"year": 1980,
},
),
TextNode(
text="Life",
metadata={
"author": "Keith Richards",
"genre": "Memoir",
"year": 2010,
},
),
TextNode(
text="The Life",
metadata={
"author": "Malcolm Knox",
"genre": "Literary Fiction",
"year": 2011,
},
),
]
构建索引¶
在本节中,我们将使用默认的嵌入模型(OpenAI 的 text-embedding-ada-002
)将样本数据存储在 Milvus 中。标题将被转换为文本嵌入并存储在密集嵌入字段中,而所有元数据将存储在标量字段中。
from llama_index.vector_stores.milvus import MilvusVectorStore
from llama_index.core import StorageContext, VectorStoreIndex
vector_store = MilvusVectorStore(
uri=URI,
# token=TOKEN,
collection_name="test_filter_collection", # Change collection name here
dim=1536, # Vector dimension depends on the embedding model
overwrite=True, # Drop collection if exists
)
storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex(nodes, storage_context=storage_context)
2025-04-22 08:31:09,871 [DEBUG][_create_connection]: Created new connection using: 19675caa8f894772b3db175b65d0063a (async_milvus_client.py:547)
元数据过滤器¶
在本节中,我们将 LlamaIndex 内置的元数据过滤器和条件应用于 Milvus 搜索。
定义元数据过滤器
from llama_index.core.vector_stores import (
MetadataFilter,
MetadataFilters,
FilterOperator,
)
filters = MetadataFilters(
filters=[
MetadataFilter(
key="year", value=2000, operator=FilterOperator.GT
) # year > 2000
]
)
使用过滤器从向量存储中检索
retriever = index.as_retriever(filters=filters, similarity_top_k=5)
result_nodes = retriever.retrieve("Books about life")
for node in result_nodes:
print(node.text)
print(node.metadata)
print("\n")
The Life {'author': 'Malcolm Knox', 'genre': 'Literary Fiction', 'year': 2011} Life {'author': 'Keith Richards', 'genre': 'Memoir', 'year': 2010}
多个元数据过滤器¶
您还可以组合多个元数据过滤器来创建更复杂的查询。LlamaIndex 支持 AND
和 OR
条件来组合过滤器。这允许根据文档的元数据属性进行更精确和灵活的检索。
条件 AND
尝试一个过滤 1979 年至 2010 年间出版的书籍的示例(具体来说,即 1979 < 年份 ≤ 2010)
from llama_index.core.vector_stores import FilterCondition
filters = MetadataFilters(
filters=[
MetadataFilter(
key="year", value=1979, operator=FilterOperator.GT
), # year > 1979
MetadataFilter(
key="year", value=2010, operator=FilterOperator.LTE
), # year <= 2010
],
condition=FilterCondition.AND,
)
retriever = index.as_retriever(filters=filters, similarity_top_k=5)
result_nodes = retriever.retrieve("Books about life")
for node in result_nodes:
print(node.text)
print(node.metadata)
print("\n")
Life and Fate {'author': 'Vasily Grossman', 'genre': 'Historical Fiction', 'year': 1980} Life {'author': 'Keith Richards', 'genre': 'Memoir', 'year': 2010}
条件 OR
尝试另一个示例,过滤由 Georges Perec 或 Keith Richards 撰写的书籍
filters = MetadataFilters(
filters=[
MetadataFilter(
key="author", value="Georges Perec", operator=FilterOperator.EQ
), # author is Georges Perec
MetadataFilter(
key="author", value="Keith Richards", operator=FilterOperator.EQ
), # author is Keith Richards
],
condition=FilterCondition.OR,
)
retriever = index.as_retriever(filters=filters, similarity_top_k=5)
result_nodes = retriever.retrieve("Books about life")
for node in result_nodes:
print(node.text)
print(node.metadata)
print("\n")
Life {'author': 'Keith Richards', 'genre': 'Memoir', 'year': 2010} Life: A User's Manual {'author': 'Georges Perec', 'genre': 'Postmodern Fiction', 'year': 1978}
retriever = index.as_retriever(
vector_store_kwargs={
"string_expr": "genre like '%Fiction'",
},
similarity_top_k=5,
)
result_nodes = retriever.retrieve("Books about life")
for node in result_nodes:
print(node.text)
print(node.metadata)
print("\n")
The Life {'author': 'Malcolm Knox', 'genre': 'Literary Fiction', 'year': 2011} Life and Fate {'author': 'Vasily Grossman', 'genre': 'Historical Fiction', 'year': 1980} Life: A User's Manual {'author': 'Georges Perec', 'genre': 'Postmodern Fiction', 'year': 1978}