Google Cloud SQL for PostgreSQL - `PostgresVectorStore`¶

Cloud SQL 是一种完全托管的关系型数据库服务，提供高性能、无缝集成和出色的可伸缩性。它提供 MySQL、PostgreSQL 和 SQL Server 数据库引擎。利用 Cloud SQL 的 LlamaIndex 集成扩展您的数据库应用，构建由 AI 驱动的体验。

本 notebook 介绍了如何使用 Cloud SQL for PostgreSQL 和 PostgresVectorStore 类来存储向量嵌入。

在 GitHub 上了解有关此软件包的更多信息。

开始之前¶

要运行此 notebook，您需要完成以下操作：

🦙 库安装¶

安装集成库 llama-index-cloud-sql-pg 和嵌入服务库 llama-index-embeddings-vertex。

In [ ]

已复制！

%pip install --upgrade --quiet llama-index-cloud-sql-pg llama-index-embeddings-vertex llama-index-llms-vertex llama-index
%pip install --upgrade --quiet llama-index-cloud-sql-pg llama-index-embeddings-vertex llama-index-llms-vertex llama-index

仅限 Colab： 取消注释以下单元格以重新启动内核，或使用按钮重新启动内核。对于 Vertex AI Workbench，您可以使用顶部的按钮重新启动终端。

In [ ]

已复制！

# # Automatically restart kernel after installs so that your environment can access the new packages
# import IPython

# app = IPython.Application.instance()
# app.kernel.do_shutdown(True)
# # Automatically restart kernel after installs so that your environment can access the new packages # import IPython # app = IPython.Application.instance() # app.kernel.do_shutdown(True)

🔐 认证¶

以登录此 notebook 的 IAM 用户身份向 Google Cloud 进行认证，以便访问您的 Google Cloud 项目。

如果您正在使用 Colab 运行此 notebook，请使用下面的单元格并继续。
如果您正在使用 Vertex AI Workbench，请查看此处的设置说明。

In [ ]

已复制！

from google.colab import auth

auth.authenticate_user()
from google.colab import auth auth.authenticate_user()

☁ 设置您的 Google Cloud 项目¶

设置您的 Google Cloud 项目，以便您可以在此 notebook 中利用 Google Cloud 资源。

如果您不知道您的项目 ID，请尝试以下操作：

运行 gcloud config list。
运行 gcloud projects list。
查看支持页面：查找项目 ID。

In [ ]

已复制！

# @markdown Please fill in the value below with your Google Cloud project ID and then run the cell.

PROJECT_ID = "my-project-id"  # @param {type:"string"}

# Set the project id
!gcloud config set project {PROJECT_ID}
# @markdown 请在下方填入您的 Google Cloud 项目 ID，然后运行此单元格。 PROJECT_ID = "my-project-id" # @param {type:"string"} # Set the project id !gcloud config set project {PROJECT_ID}

基本用法¶

设置 Cloud SQL 数据库值¶

在Cloud SQL 实例页面中查找您的数据库值。

In [ ]

已复制！





# @title Set Your Values Here { display-mode: "form" }
REGION = "us-central1"  # @param {type: "string"}
INSTANCE = "my-primary"  # @param {type: "string"}
DATABASE = "my-database"  # @param {type: "string"}
TABLE_NAME = "vector_store"  # @param {type: "string"}
USER = "postgres"  # @param {type: "string"}
PASSWORD = "my-password"  # @param {type: "string"}
# @title 在此处设置您的值 { display-mode: "form" } REGION = "us-central1" # @param {type: "string"} INSTANCE = "my-primary" # @param {type: "string"} DATABASE = "my-database" # @param {type: "string"} TABLE_NAME = "vector_store" # @param {type: "string"} USER = "postgres" # @param {type: "string"} PASSWORD = "my-password" # @param {type: "string"}

PostgresEngine 连接池¶

将 Cloud SQL 建立为向量存储的一个要求和参数是 PostgresEngine 对象。PostgresEngine 为您的 Cloud SQL 数据库配置连接池，使您的应用能够成功连接并遵循行业最佳实践。

要使用 PostgresEngine.from_instance() 创建 PostgresEngine，您只需提供 4 项信息：

project_id：Cloud SQL 实例所在的 Google Cloud 项目的项目 ID。
region：Cloud SQL 实例所在的区域。
instance：Cloud SQL 实例的名称。
database：要在 Cloud SQL 实例上连接的数据库名称。

默认情况下，IAM 数据库认证将用作数据库认证方法。此库使用来自环境的应用默认凭据 (ADC) 所属的 IAM 主体。

有关 IAM 数据库认证的更多信息，请参阅：

或者，也可以使用带有用户名和密码的内置数据库认证来访问 Cloud SQL 数据库。只需将可选的 user 和 password 参数提供给 PostgresEngine.from_instance() 即可。

user：用于内置数据库认证和登录的数据库用户
password：用于内置数据库认证和登录的数据库密码。

注意： 本教程演示了异步接口。所有异步方法都有对应的同步方法。

In [ ]

已复制！





from llama_index_cloud_sql_pg import PostgresEngine

engine = await PostgresEngine.afrom_instance(
    project_id=PROJECT_ID,
    region=REGION,
    instance=INSTANCE,
    database=DATABASE,
    user=USER,
    password=PASSWORD,
)
from llama_index_cloud_sql_pg import PostgresEngine engine = await PostgresEngine.afrom_instance( project_id=PROJECT_ID, region=REGION, instance=INSTANCE, database=DATABASE, user=USER, password=PASSWORD, )

初始化表¶

PostgresVectorStore 类需要一个数据库表。PostgresEngine 引擎有一个辅助方法 init_vector_store_table()，可以用来为您创建一个具有适当模式的表。

In [ ]

已复制！

await engine.ainit_vector_store_table(
    table_name=TABLE_NAME,
    vector_size=768,  # Vector size for VertexAI model(textembedding-gecko@latest)
)
await engine.ainit_vector_store_table( table_name=TABLE_NAME, vector_size=768, # VertexAI 模型 (textembedding-gecko@latest) 的向量大小 )

可选提示：💡¶

您还可以通过在任何传递 table_name 的地方传递 schema_name 来指定模式名称。

In [ ]

已复制！

SCHEMA_NAME = "my_schema"

await engine.ainit_vector_store_table(
    table_name=TABLE_NAME,
    schema_name=SCHEMA_NAME,
    vector_size=768,
)
SCHEMA_NAME = "my_schema" await engine.ainit_vector_store_table( table_name=TABLE_NAME, schema_name=SCHEMA_NAME, vector_size=768, )

创建嵌入类实例¶

您可以使用任何Llama Index 嵌入模型。您可能需要启用 Vertex AI API 才能使用 VertexTextEmbeddings。我们建议在生产环境中设置嵌入模型的版本，详细了解文本嵌入模型。

In [ ]

已复制！

# enable Vertex AI API
!gcloud services enable aiplatform.googleapis.com
# enable Vertex AI API !gcloud services enable aiplatform.googleapis.com

In [ ]

已复制！





from llama_index.core import Settings
from llama_index.embeddings.vertex import VertexTextEmbedding
from llama_index.llms.vertex import Vertex
import google.auth

credentials, project_id = google.auth.default()
Settings.embed_model = VertexTextEmbedding(
    model_name="textembedding-gecko@003",
    project=PROJECT_ID,
    credentials=credentials,
)

Settings.llm = Vertex(model="gemini-1.5-flash-002", project=PROJECT_ID)
from llama_index.core import Settings from llama_index.embeddings.vertex import VertexTextEmbedding from llama_index.llms.vertex import Vertex import google.auth credentials, project_id = google.auth.default() Settings.embed_model = VertexTextEmbedding( model_name="textembedding-gecko@003", project=PROJECT_ID, credentials=credentials, ) Settings.llm = Vertex(model="gemini-1.5-flash-002", project=PROJECT_ID)

初始化默认的 PostgresVectorStore¶

In [ ]

已复制！

from llama_index_cloud_sql_pg import PostgresVectorStore

vector_store = await PostgresVectorStore.create(
    engine=engine,
    table_name=TABLE_NAME,
    # schema_name=SCHEMA_NAME
)
from llama_index_cloud_sql_pg import PostgresVectorStore vector_store = await PostgresVectorStore.create( engine=engine, table_name=TABLE_NAME, # schema_name=SCHEMA_NAME )

下载数据¶

In [ ]

已复制！

!mkdir -p 'data/paul_graham/'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'
!mkdir -p 'data/paul_graham/' !wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'

加载文档¶

In [ ]

已复制！

from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader("./data/paul_graham").load_data()
print("Document ID:", documents[0].doc_id)
from llama_index.core import SimpleDirectoryReader documents = SimpleDirectoryReader("./data/paul_graham").load_data() print("Document ID:", documents[0].doc_id)

与 VectorStoreIndex 一起使用¶

使用VectorStoreIndex 从向量存储创建索引。

使用文档初始化向量存储¶

使用向量存储的最简单方法是加载一组文档并使用 from_documents 从中构建索引。

In [ ]

已复制！

from llama_index.core import StorageContext, VectorStoreIndex

storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex.from_documents(
    documents, storage_context=storage_context, show_progress=True
)
from llama_index.core import StorageContext, VectorStoreIndex storage_context = StorageContext.from_defaults(vector_store=vector_store) index = VectorStoreIndex.from_documents( documents, storage_context=storage_context, show_progress=True )

查询索引¶

In [ ]

已复制！

query_engine = index.as_query_engine()
response = query_engine.query("What did the author do?")
print(response)
query_engine = index.as_query_engine() response = query_engine.query("What did the author do?") print(response)

创建自定义向量存储¶

向量存储可以利用关系型数据来过滤相似性搜索。

创建一个带有自定义元数据列的新表。您也可以重复使用一个已有的表，该表已包含文档的 id、内容、嵌入和/或元数据的自定义列。

In [ ]

已复制！





from llama_index_cloud_sql_pg import Column

# Set table name
TABLE_NAME = "vectorstore_custom"
# SCHEMA_NAME = "my_schema"

await engine.ainit_vector_store_table(
    table_name=TABLE_NAME,
    # schema_name=SCHEMA_NAME,
    vector_size=768,  # VertexAI model: textembedding-gecko@003
    metadata_columns=[Column("len", "INTEGER")],
)


# Initialize PostgresVectorStore
custom_store = await PostgresVectorStore.create(
    engine=engine,
    table_name=TABLE_NAME,
    # schema_name=SCHEMA_NAME,
    metadata_columns=["len"],
)
from llama_index_cloud_sql_pg import Column # 设置表名 TABLE_NAME = "vectorstore_custom" # SCHEMA_NAME = "my_schema" await engine.ainit_vector_store_table( table_name=TABLE_NAME, # schema_name=SCHEMA_NAME, vector_size=768, # VertexAI 模型: textembedding-gecko@003 metadata_columns=[Column("len", "INTEGER")], ) # 初始化 PostgresVectorStore custom_store = await PostgresVectorStore.create( engine=engine, table_name=TABLE_NAME, # schema_name=SCHEMA_NAME, metadata_columns=["len"], )

添加带有元数据的文档¶

文档 metadata 可以为 LLM 和检索过程提供更多信息。详细了解提取和添加元数据的不同方法。

In [ ]

已复制！





from llama_index.core import Document

fruits = ["apple", "pear", "orange", "strawberry", "banana", "kiwi"]
documents = [
    Document(text=fruit, metadata={"len": len(fruit)}) for fruit in fruits
]

storage_context = StorageContext.from_defaults(vector_store=custom_store)
custom_doc_index = VectorStoreIndex.from_documents(
    documents, storage_context=storage_context, show_progress=True
)
from llama_index.core import Document fruits = ["apple", "pear", "orange", "strawberry", "banana", "kiwi"] documents = [ Document(text=fruit, metadata={"len": len(fruit)}) for fruit in fruits ] storage_context = StorageContext.from_defaults(vector_store=custom_store) custom_doc_index = VectorStoreIndex.from_documents( documents, storage_context=storage_context, show_progress=True )

使用元数据过滤器搜索文档¶

您可以通过指定 filters 参数来对搜索结果应用预过滤。

In [ ]

已复制！





from llama_index.core.vector_stores.types import (
    MetadataFilter,
    MetadataFilters,
    FilterOperator,
)

filters = MetadataFilters(
    filters=[
        MetadataFilter(key="len", operator=FilterOperator.GT, value="5"),
    ],
)

query_engine = custom_doc_index.as_query_engine(filters=filters)
res = query_engine.query("List some fruits")
print(str(res.source_nodes[0].text))
from llama_index.core.vector_stores.types import ( MetadataFilter, MetadataFilters, FilterOperator, ) filters = MetadataFilters( filters=[ MetadataFilter(key="len", operator=FilterOperator.GT, value="5"), ], ) query_engine = custom_doc_index.as_query_engine(filters=filters) res = query_engine.query("List some fruits") print(str(res.source_nodes[0].text))

添加索引¶

通过应用向量索引来加速向量搜索查询。详细了解向量索引。

In [ ]

已复制！

from llama_index_cloud_sql_pg.indexes import IVFFlatIndex

index = IVFFlatIndex()
await vector_store.aapply_vector_index(index)
from llama_index_cloud_sql_pg.indexes import IVFFlatIndex index = IVFFlatIndex() await vector_store.aapply_vector_index(index)

重新索引¶

In [ ]

已复制！

await vector_store.areindex()  # Re-index using default index name
await vector_store.areindex() # 使用默认索引名称重新索引

删除索引¶

In [ ]

已复制！

await vector_store.adrop_vector_index()  # Delete index using default name
await vector_store.adrop_vector_index() # 使用默认名称删除索引

Google Cloud SQL for PostgreSQL - PostgresVectorStore¶

开始之前¶

🦙 库安装¶

🔐 认证¶

☁ 设置您的 Google Cloud 项目¶

基本用法¶

设置 Cloud SQL 数据库值¶

PostgresEngine 连接池¶

初始化表¶

可选提示：💡¶

创建嵌入类实例¶

初始化默认的 PostgresVectorStore¶

下载数据¶

加载文档¶

与 VectorStoreIndex 一起使用¶

使用文档初始化向量存储¶

查询索引¶

创建自定义向量存储¶

添加带有元数据的文档¶

使用元数据过滤器搜索文档¶

添加索引¶

重新索引¶

删除索引¶

Google Cloud SQL for PostgreSQL - `PostgresVectorStore`¶