Google 生成式语言语义检索器¶

在本 Notebook 中，我们将快速展示如何开始使用 Google 的生成式语言语义检索器。它提供专门的嵌入模型用于高质量检索，并提供一个经过调优的模型，用于生成具有可定制安全设置的基于事实的输出。我们还将向您展示一些高级示例，说明如何结合 LlamaIndex 的强大功能和 Google 的这一独特产品。

安装¶

In [ ]

已复制！

%pip install llama-index-llms-gemini
%pip install llama-index-vector-stores-google
%pip install llama-index-indices-managed-google
%pip install llama-index-response-synthesizers-google
%pip install llama-index-llms-gemini %pip install llama-index-vector-stores-google %pip install llama-index-indices-managed-google %pip install llama-index-response-synthesizers-google

In [ ]

已复制！

%pip install llama-index
%pip install "google-ai-generativelanguage>=0.4,<=1.0"
%pip install llama-index %pip install "google-ai-generativelanguage>=0.4,<=1.0"

Google 身份验证概述¶

Google 语义检索器 API 允许您对自己的数据执行语义搜索。由于这是**您的数据**，因此需要比 API 密钥更严格的访问控制。您可以使用服务帐户通过 OAuth 进行身份验证，或通过您的用户凭据进行身份验证（示例在本 Notebook 底部）。

本快速入门使用了一种简化的身份验证方法，适用于测试环境，通常从服务帐户设置开始更容易。使用服务帐户进行身份验证的演示录像：演示。

对于生产环境，请在选择适合您应用的访问凭据之前，先了解身份验证和授权。

注意：目前，Google 生成式 AI 语义检索器 API 仅在某些地区可用。

使用服务帐户设置 OAuth¶

请按照以下步骤使用服务帐户设置 OAuth

启用生成式语言 API。
按照文档创建服务帐户。

创建服务帐户后，生成一个服务帐户密钥。

通过使用左侧边栏上的文件图标，然后是上传图标，上传您的服务帐户文件，如下图所示。

将上传的文件重命名为 service_account_key.json 或更改下方代码中的变量 service_account_file_name。

No description has been provided for this image

In [ ]

已复制！

%pip install google-auth-oauthlib
%pip install google-auth-oauthlib

In [ ]

已复制！





from google.oauth2 import service_account
from llama_index.vector_stores.google import set_google_config

credentials = service_account.Credentials.from_service_account_file(
    "service_account_key.json",
    scopes=[
        "https://www.googleapis.com/auth/generative-language.retriever",
    ],
)
set_google_config(auth_credentials=credentials)
from google.oauth2 import service_account from llama_index.vector_stores.google import set_google_config credentials = service_account.Credentials.from_service_account_file( "service_account_key.json", scopes=[ "https://www.googleapis.com/auth/generative-language.retriever", ], ) set_google_config(auth_credentials=credentials)

下载数据¶

In [ ]

已复制！

!mkdir -p 'data/paul_graham/'
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'
!mkdir -p 'data/paul_graham/' !wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/paul_graham/paul_graham_essay.txt' -O 'data/paul_graham/paul_graham_essay.txt'

设置¶

首先，让我们在幕后创建一些辅助函数。

In [ ]

已复制！





import llama_index.core.vector_stores.google.generativeai.genai_extension as genaix
from typing import Iterable
from random import randrange


LLAMA_INDEX_COLAB_CORPUS_ID_PREFIX = f"llama-index-colab"
SESSION_CORPUS_ID_PREFIX = (
    f"{LLAMA_INDEX_COLAB_CORPUS_ID_PREFIX}-{randrange(1000000)}"
)


def corpus_id(num_id: int) -> str:
    return f"{SESSION_CORPUS_ID_PREFIX}-{num_id}"


SESSION_CORPUS_ID = corpus_id(1)


def list_corpora() -> Iterable[genaix.Corpus]:
    client = genaix.build_semantic_retriever()
    yield from genaix.list_corpora(client=client)


def delete_corpus(*, corpus_id: str) -> None:
    client = genaix.build_semantic_retriever()
    genaix.delete_corpus(corpus_id=corpus_id, client=client)


def cleanup_colab_corpora():
    for corpus in list_corpora():
        if corpus.corpus_id.startswith(LLAMA_INDEX_COLAB_CORPUS_ID_PREFIX):
            try:
                delete_corpus(corpus_id=corpus.corpus_id)
                print(f"Deleted corpus {corpus.corpus_id}.")
            except Exception:
                pass


# Remove any previously leftover corpora from this colab.
cleanup_colab_corpora()
import llama_index.core.vector_stores.google.generativeai.genai_extension as genaix from typing import Iterable from random import randrange LLAMA_INDEX_COLAB_CORPUS_ID_PREFIX = f"llama-index-colab" SESSION_CORPUS_ID_PREFIX = ( f"{LLAMA_INDEX_COLAB_CORPUS_ID_PREFIX}-{randrange(1000000)}" ) def corpus_id(num_id: int) -> str: return f"{SESSION_CORPUS_ID_PREFIX}-{num_id}" SESSION_CORPUS_ID = corpus_id(1) def list_corpora() -> Iterable[genaix.Corpus]: client = genaix.build_semantic_retriever() yield from genaix.list_corpora(client=client) def delete_corpus(*, corpus_id: str) -> None: client = genaix.build_semantic_retriever() genaix.delete_corpus(corpus_id=corpus_id, client=client) def cleanup_colab_corpora(): for corpus in list_corpora(): if corpus.corpus_id.startswith(LLAMA_INDEX_COLAB_CORPUS_ID_PREFIX): try: delete_corpus(corpus_id=corpus.corpus_id) print(f"Deleted corpus {corpus.corpus_id}.") except Exception: pass # 移除此 colab 中之前遗留的任何语料库。 cleanup_colab_corpora()

基本用法¶

语料库 是 文档 的集合。文档 是分解成 块 的文本主体。

In [ ]

已复制！





from llama_index.core import SimpleDirectoryReader
from llama_index.indices.managed.google import GoogleIndex
from llama_index.core import Response
import time

# Create a corpus.
index = GoogleIndex.create_corpus(
    corpus_id=SESSION_CORPUS_ID, display_name="My first corpus!"
)
print(f"Newly created corpus ID is {index.corpus_id}.")

# Ingestion.
documents = SimpleDirectoryReader("./data/paul_graham/").load_data()
index.insert_documents(documents)
from llama_index.core import SimpleDirectoryReader from llama_index.indices.managed.google import GoogleIndex from llama_index.core import Response import time # 创建一个语料库。 index = GoogleIndex.create_corpus( corpus_id=SESSION_CORPUS_ID, display_name="My first corpus!" ) print(f"Newly created corpus ID is {index.corpus_id}.") # 摄取。 documents = SimpleDirectoryReader("./data/paul_graham/").load_data() index.insert_documents(documents)

让我们检查一下我们摄取的内容。

In [ ]

已复制！

for corpus in list_corpora():
    print(corpus)
for corpus in list_corpora(): print(corpus)

让我们向索引提问。

In [ ]

已复制！





# Querying.
query_engine = index.as_query_engine()
response = query_engine.query("What did Paul Graham do growing up?")
assert isinstance(response, Response)

# Show response.
print(f"Response is {response.response}")

# Show cited passages that were used to construct the response.
for cited_text in [node.text for node in response.source_nodes]:
    print(f"Cited text: {cited_text}")

# Show answerability. 0 means not answerable from the passages.
# 1 means the model is certain the answer can be provided from the passages.
if response.metadata:
    print(
        f"Answerability: {response.metadata.get('answerable_probability', 0)}"
    )
# 查询。 query_engine = index.as_query_engine() response = query_engine.query("What did Paul Graham do growing up?") assert isinstance(response, Response) # 显示响应。 print(f"Response is {response.response}") # 显示用于构建响应的引用段落。 for cited_text in [node.text for node in response.source_nodes]: print(f"Cited text: {cited_text}") # 显示可回答性。0 表示无法从段落中回答。# 1 表示模型确定可以从段落中提供答案。 if response.metadata: print( f"Answerability: {response.metadata.get('answerable_probability', 0)}" )

创建语料库¶

有多种方法可以创建语料库。

# The Google server will provide a corpus ID for you.
index = GoogleIndex.create_corpus(display_name="My first corpus!")
print(index.corpus_id)

# You can also provide your own corpus ID. However, this ID needs to be globally
# unique. You will get an exception if someone else has this ID already.
index = GoogleIndex.create_corpus(
    corpus_id="my-first-corpus", display_name="My first corpus!"
)

# If you do not provide any parameter, Google will provide ID and a default
# display name for you.
index = GoogleIndex.create_corpus()

重用语料库¶

您创建的语料库会持久保存在您的 Google 帐户下的服务器上。您可以使用其 ID 重新获取句柄。然后，您可以查询它、向其中添加更多文档等。

In [ ]

已复制！

# Use a previously created corpus.
index = GoogleIndex.from_corpus(corpus_id=SESSION_CORPUS_ID)

# Query it again!
query_engine = index.as_query_engine()
response = query_engine.query("Which company did Paul Graham build?")
assert isinstance(response, Response)

# Show response.
print(f"Response is {response.response}")
# 使用之前创建的语料库。 index = GoogleIndex.from_corpus(corpus_id=SESSION_CORPUS_ID) # 再次查询！ query_engine = index.as_query_engine() response = query_engine.query("Which company did Paul Graham build?") assert isinstance(response, Response) # 显示响应。 print(f"Response is {response.response}")

列出和删除语料库¶

有关更多文档，请参阅 Python 库 google-generativeai。

加载文档¶

LlamaIndex 中的许多节点解析器和文本分割器都会自动为每个节点添加一个 `source_node`，以便将其与文件关联，例如：

relationships={
        NodeRelationship.SOURCE: RelatedNodeInfo(
            node_id="abc-123",
            metadata={"file_name": "Title for the document"},
        )
    },

GoogleIndex 和 GoogleVectorStore 都识别此 source node，并将在 Google 服务器上您的语料库下自动创建文档。

如果您正在编写自己的分块器，也应提供此 source node 关系，如下所示

In [ ]

已复制！





from llama_index.core.schema import NodeRelationship, RelatedNodeInfo, TextNode

index = GoogleIndex.from_corpus(corpus_id=SESSION_CORPUS_ID)
index.insert_nodes(
    [
        TextNode(
            text="It was the best of times.",
            relationships={
                NodeRelationship.SOURCE: RelatedNodeInfo(
                    node_id="123",
                    metadata={"file_name": "Tale of Two Cities"},
                )
            },
        ),
        TextNode(
            text="It was the worst of times.",
            relationships={
                NodeRelationship.SOURCE: RelatedNodeInfo(
                    node_id="123",
                    metadata={"file_name": "Tale of Two Cities"},
                )
            },
        ),
        TextNode(
            text="Bugs Bunny: Wassup doc?",
            relationships={
                NodeRelationship.SOURCE: RelatedNodeInfo(
                    node_id="456",
                    metadata={"file_name": "Bugs Bunny Adventure"},
                )
            },
        ),
    ]
)
from llama_index.core.schema import NodeRelationship, RelatedNodeInfo, TextNode index = GoogleIndex.from_corpus(corpus_id=SESSION_CORPUS_ID) index.insert_nodes( [ TextNode( text="那是最好的时代。", relationships={ NodeRelationship.SOURCE: RelatedNodeInfo( node_id="123", metadata={"file_name": "双城记"}, ) }, ), TextNode( text="那是最坏的时代。", relationships={ NodeRelationship.SOURCE: RelatedNodeInfo( node_id="123", metadata={"file_name": "双城记"}, ) }, ), TextNode( text="兔八哥：你好吗？", relationships={ NodeRelationship.SOURCE: RelatedNodeInfo( node_id="456", metadata={"file_name": "兔八哥冒险记"}, ) }, ), ] )

如果您的节点没有 source node，Google 服务器将把您的节点放在您的语料库下的一个默认文档中。

列出和删除文档¶

有关更多文档，请参阅 Python 库 google-generativeai。

查询语料库¶

Google 的查询引擎由一个经过特殊调优的 LLM 提供支持，该 LLM 根据检索到的段落进行响应。对于每个响应，都会返回一个 可回答性概率，以指示 LLM 对从检索到的段落回答问题的信心程度。

此外，Google 的查询引擎支持 回答风格，例如 ABSTRACTIVE（简洁但抽象）、EXTRACTIVE（非常简短且提取）和 VERBOSE（额外详细信息）。

该引擎还支持 安全设置。

In [ ]

已复制！





from google.ai.generativelanguage import (
    GenerateAnswerRequest,
    HarmCategory,
    SafetySetting,
)

index = GoogleIndex.from_corpus(corpus_id=SESSION_CORPUS_ID)
query_engine = index.as_query_engine(
    # We recommend temperature between 0 and 0.2.
    temperature=0.2,
    # See package `google-generativeai` for other voice styles.
    answer_style=GenerateAnswerRequest.AnswerStyle.ABSTRACTIVE,
    # See package `google-generativeai` for additional safety settings.
    safety_setting=[
        SafetySetting(
            category=HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT,
            threshold=SafetySetting.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE,
        ),
        SafetySetting(
            category=HarmCategory.HARM_CATEGORY_VIOLENCE,
            threshold=SafetySetting.HarmBlockThreshold.BLOCK_ONLY_HIGH,
        ),
    ],
)

response = query_engine.query("What was Bugs Bunny's favorite saying?")
print(response)
from google.ai.generativelanguage import ( GenerateAnswerRequest, HarmCategory, SafetySetting, ) index = GoogleIndex.from_corpus(corpus_id=SESSION_CORPUS_ID) query_engine = index.as_query_engine( # 我们建议温度介于 0 到 0.2 之间。 temperature=0.2, # 有关其他语音风格，请参阅包 `google-generativeai`。 answer_style=GenerateAnswerRequest.AnswerStyle.ABSTRACTIVE, # 有关其他安全设置，请参阅包 `google-generativeai`。 safety_setting=[ SafetySetting( category=HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT, threshold=SafetySetting.HarmBlockThreshold.BLOCK_LOW_AND_ABOVE, ), SafetySetting( category=HarmCategory.HARM_CATEGORY_VIOLENCE, threshold=SafetySetting.HarmBlockThreshold.BLOCK_ONLY_HIGH, ), ], ) response = query_engine.query("兔八哥最喜欢说什么？") print(response)

有关更多文档，请参阅 Python 库 google-generativeai。

解释响应¶

In [ ]

已复制！





from llama_index.core import Response

response = query_engine.query("What were Paul Graham's achievements?")
assert isinstance(response, Response)

# Show response.
print(f"Response is {response.response}")

# Show cited passages that were used to construct the response.
for cited_text in [node.text for node in response.source_nodes]:
    print(f"Cited text: {cited_text}")

# Show answerability. 0 means not answerable from the passages.
# 1 means the model is certain the answer can be provided from the passages.
if response.metadata:
    print(
        f"Answerability: {response.metadata.get('answerable_probability', 0)}"
    )
from llama_index.core import Response response = query_engine.query("Paul Graham 的成就是什么？") assert isinstance(response, Response) # 显示响应。 print(f"Response is {response.response}") # 显示用于构建响应的引用段落。 for cited_text in [node.text for node in response.source_nodes]: print(f"Cited text: {cited_text}") # 显示可回答性。0 表示无法从段落中回答。# 1 表示模型确定可以从段落中提供答案。 if response.metadata: print( f"Answerability: {response.metadata.get('answerable_probability', 0)}" )

高级 RAG¶

GoogleIndex 基于 GoogleVectorStore 和 GoogleTextSynthesizer 构建。这些组件可以与 LlamaIndex 中的其他强大构建块相结合，以生成高级 RAG 应用。

下面我们展示几个示例。

设置¶

首先，你需要一个 API 密钥。请从 AI Studio 获取。

In [ ]

已复制！

from llama_index.llms.gemini import Gemini

GEMINI_API_KEY = ""  # @param {type:"string"}
gemini = Gemini(api_key=GEMINI_API_KEY)
from llama_index.llms.gemini import Gemini GEMINI_API_KEY = "" # @param {type:"string"} gemini = Gemini(api_key=GEMINI_API_KEY)

重排序器 + Google 检索器¶

将内容转换为向量是一个有损的过程。基于 LLM 的重排序通过使用 LLM 对检索到的内容进行重排序来弥补这一点，因为 LLM 可以访问实际查询和原文段落，所以具有更高的保真度。

In [ ]

已复制！





from llama_index.response_synthesizers.google import GoogleTextSynthesizer
from llama_index.vector_stores.google import GoogleVectorStore
from llama_index.core import VectorStoreIndex
from llama_index.core.postprocessor import LLMRerank
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.retrievers import VectorIndexRetriever

# Set up the query engine with a reranker.
store = GoogleVectorStore.from_corpus(corpus_id=SESSION_CORPUS_ID)
index = VectorStoreIndex.from_vector_store(
    vector_store=store,
)
response_synthesizer = GoogleTextSynthesizer.from_defaults(
    temperature=0.2,
    answer_style=GenerateAnswerRequest.AnswerStyle.ABSTRACTIVE,
)
reranker = LLMRerank(
    top_n=10,
    llm=gemini,
)
query_engine = RetrieverQueryEngine.from_args(
    retriever=VectorIndexRetriever(
        index=index,
        similarity_top_k=20,
    ),
    node_postprocessors=[reranker],
    response_synthesizer=response_synthesizer,
)

# Query.
response = query_engine.query("What were Paul Graham's achievements?")
print(response)
from llama_index.response_synthesizers.google import GoogleTextSynthesizer from llama_index.vector_stores.google import GoogleVectorStore from llama_index.core import VectorStoreIndex from llama_index.core.postprocessor import LLMRerank from llama_index.core.query_engine import RetrieverQueryEngine from llama_index.core.retrievers import VectorIndexRetriever # Set up the query engine with a reranker. store = GoogleVectorStore.from_corpus(corpus_id=SESSION_CORPUS_ID) index = VectorStoreIndex.from_vector_store( vector_store=store, ) response_synthesizer = GoogleTextSynthesizer.from_defaults( temperature=0.2, answer_style=GenerateAnswerRequest.AnswerStyle.ABSTRACTIVE, ) reranker = LLMRerank( top_n=10, llm=gemini, ) query_engine = RetrieverQueryEngine.from_args( retriever=VectorIndexRetriever( index=index, similarity_top_k=20, ), node_postprocessors=[reranker], response_synthesizer=response_synthesizer, ) # Query. response = query_engine.query("What were Paul Graham's achievements?") print(response)

多查询 + Google 检索器¶

有时，用户的查询可能过于复杂。如果您将原始查询分解为更小、更集中的查询，您可能会获得更好的检索结果。

In [ ]

已复制！





from llama_index.core.indices.query.query_transform.base import (
    StepDecomposeQueryTransform,
)
from llama_index.core.query_engine import MultiStepQueryEngine

# Set up the query engine with multi-turn query-rewriter.
store = GoogleVectorStore.from_corpus(corpus_id=SESSION_CORPUS_ID)
index = VectorStoreIndex.from_vector_store(
    vector_store=store,
)
response_synthesizer = GoogleTextSynthesizer.from_defaults(
    temperature=0.2,
    answer_style=GenerateAnswerRequest.AnswerStyle.ABSTRACTIVE,
)
single_step_query_engine = index.as_query_engine(
    similarity_top_k=10,
    response_synthesizer=response_synthesizer,
)
step_decompose_transform = StepDecomposeQueryTransform(
    llm=gemini,
    verbose=True,
)
query_engine = MultiStepQueryEngine(
    query_engine=single_step_query_engine,
    query_transform=step_decompose_transform,
    response_synthesizer=response_synthesizer,
    index_summary="Ask me anything.",
    num_steps=6,
)

# Query.
response = query_engine.query("What were Paul Graham's achievements?")
print(response)
from llama_index.core.indices.query.query_transform.base import ( StepDecomposeQueryTransform, ) from llama_index.core.query_engine import MultiStepQueryEngine # Set up the query engine with multi-turn query-rewriter. store = GoogleVectorStore.from_corpus(corpus_id=SESSION_CORPUS_ID) index = VectorStoreIndex.from_vector_store( vector_store=store, ) response_synthesizer = GoogleTextSynthesizer.from_defaults( temperature=0.2, answer_style=GenerateAnswerRequest.AnswerStyle.ABSTRACTIVE, ) single_step_query_engine = index.as_query_engine( similarity_top_k=10, response_synthesizer=response_synthesizer, ) step_decompose_transform = StepDecomposeQueryTransform( llm=gemini, verbose=True, ) query_engine = MultiStepQueryEngine( query_engine=single_step_query_engine, query_transform=step_decompose_transform, response_synthesizer=response_synthesizer, index_summary="Ask me anything.", num_steps=6, ) # Query. response = query_engine.query("What were Paul Graham's achievements?") print(response)

HyDE + Google 检索器¶

当您可以编写能够生成与真实答案具有许多共同特征的**假设性答案**的提示时，您可以尝试 HyDE！

In [ ]

已复制！





from llama_index.core.indices.query.query_transform import HyDEQueryTransform
from llama_index.core.query_engine import TransformQueryEngine

# Set up the query engine with multi-turn query-rewriter.
store = GoogleVectorStore.from_corpus(corpus_id=SESSION_CORPUS_ID)
index = VectorStoreIndex.from_vector_store(
    vector_store=store,
)
response_synthesizer = GoogleTextSynthesizer.from_defaults(
    temperature=0.2,
    answer_style=GenerateAnswerRequest.AnswerStyle.ABSTRACTIVE,
)
base_query_engine = index.as_query_engine(
    similarity_top_k=10,
    response_synthesizer=response_synthesizer,
)
hyde = HyDEQueryTransform(
    llm=gemini,
    include_original=False,
)
hyde_query_engine = TransformQueryEngine(base_query_engine, hyde)

# Query.
response = query_engine.query("What were Paul Graham's achievements?")
print(response)
from llama_index.core.indices.query.query_transform import HyDEQueryTransform from llama_index.core.query_engine import TransformQueryEngine # Set up the query engine with multi-turn query-rewriter. store = GoogleVectorStore.from_corpus(corpus_id=SESSION_CORPUS_ID) index = VectorStoreIndex.from_vector_store( vector_store=store, ) response_synthesizer = GoogleTextSynthesizer.from_defaults( temperature=0.2, answer_style=GenerateAnswerRequest.AnswerStyle.ABSTRACTIVE, ) base_query_engine = index.as_query_engine( similarity_top_k=10, response_synthesizer=response_synthesizer, ) hyde = HyDEQueryTransform( llm=gemini, include_original=False, ) hyde_query_engine = TransformQueryEngine(base_query_engine, hyde) # Query. response = query_engine.query("What were Paul Graham's achievements?") print(response)

多查询 + 重排序器 + HyDE + Google 检索器¶

或者将它们全部结合起来！

In [ ]

已复制！





# Google's retriever and AQA model setup.
store = GoogleVectorStore.from_corpus(corpus_id=SESSION_CORPUS_ID)
index = VectorStoreIndex.from_vector_store(
    vector_store=store,
)
response_synthesizer = GoogleTextSynthesizer.from_defaults(
    temperature=0.2, answer_style=GenerateAnswerRequest.AnswerStyle.ABSTRACTIVE
)

# Reranker setup.
reranker = LLMRerank(
    top_n=10,
    llm=gemini,
)
single_step_query_engine = index.as_query_engine(
    similarity_top_k=20,
    node_postprocessors=[reranker],
    response_synthesizer=response_synthesizer,
)

# HyDE setup.
hyde = HyDEQueryTransform(
    llm=gemini,
    include_original=False,
)
hyde_query_engine = TransformQueryEngine(single_step_query_engine, hyde)

# Multi-query setup.
step_decompose_transform = StepDecomposeQueryTransform(
    llm=gemini, verbose=True
)
query_engine = MultiStepQueryEngine(
    query_engine=hyde_query_engine,
    query_transform=step_decompose_transform,
    response_synthesizer=response_synthesizer,
    index_summary="Ask me anything.",
    num_steps=6,
)

# Query.
response = query_engine.query("What were Paul Graham's achievements?")
print(response)
# Google's retriever and AQA model setup. store = GoogleVectorStore.from_corpus(corpus_id=SESSION_CORPUS_ID) index = VectorStoreIndex.from_vector_store( vector_store=store, ) response_synthesizer = GoogleTextSynthesizer.from_defaults( temperature=0.2, answer_style=GenerateAnswerRequest.AnswerStyle.ABSTRACTIVE ) # Reranker setup. reranker = LLMRerank( top_n=10, llm=gemini, ) single_step_query_engine = index.as_query_engine( similarity_top_k=20, node_postprocessors=[reranker], response_synthesizer=response_synthesizer, ) # HyDE setup. hyde = HyDEQueryTransform( llm=gemini, include_original=False, ) hyde_query_engine = TransformQueryEngine(single_step_query_engine, hyde) # Multi-query setup. step_decompose_transform = StepDecomposeQueryTransform( llm=gemini, verbose=True ) query_engine = MultiStepQueryEngine( query_engine=hyde_query_engine, query_transform=step_decompose_transform, response_synthesizer=response_synthesizer, index_summary="Ask me anything.", num_steps=6, ) # Query. response = query_engine.query("What were Paul Graham's achievements?") print(response)

清理在 Colab 中创建的语料库¶

In [ ]

已复制！

cleanup_colab_corpora()
cleanup_colab_corpora()

附录：使用用户凭据设置 OAuth¶

请按照 OAuth 快速入门设置使用用户凭据的 OAuth。以下是文档中所需的步骤概述。

启用 `Generative Language API`：文档
配置 OAuth 同意屏幕：文档
授权桌面应用程序凭据：文档

如果您想在 Colab 中运行此 notebook，首先使用“File > Upload”选项上传您的 `client_secret*.json` 文件。
将上传的文件重命名为 `client_secret.json` 或更改下面代码中的变量 `client_file_name`。

In [ ]

已复制！





# Replace TODO-your-project-name with the project used in the OAuth Quickstart
project_name = "TODO-your-project-name"  #  @param {type:"string"}
# Replace [email protected] with the email added as a test user in the OAuth Quickstart
email = "[email protected]"  #  @param {type:"string"}
# Replace client_secret.json with the client_secret_* file name you uploaded.
client_file_name = "client_secret.json"

# IMPORTANT: Follow the instructions from the output - you must copy the command
# to your terminal and copy the output after authentication back here.
!gcloud config set project $project_name
!gcloud config set account $email

# NOTE: The simplified project setup in this tutorial triggers a "Google hasn't verified this app." dialog.
# This is normal, click "Advanced" -> "Go to [app name] (unsafe)"
!gcloud auth application-default login --no-browser --client-id-file=$client_file_name --scopes="https://www.googleapis.com/auth/generative-language.retriever,https://www.googleapis.com/auth/cloud-platform"
# Replace TODO-your-project-name with the project used in the OAuth Quickstart project_name = "TODO-your-project-name" # @param {type:"string"} # Replace [email protected] with the email added as a test user in the OAuth Quickstart email = "[email protected]" # @param {type:"string"} # Replace client_secret.json with the client_secret_* file name you uploaded. client_file_name = "client_secret.json" # IMPORTANT: Follow the instructions from the output - you must copy the command # to your terminal and copy the output after authentication back here. !gcloud config set project $project_name !gcloud config set account $email # NOTE: The simplified project setup in this tutorial triggers a "Google hasn't verified this app." dialog. # This is normal, click "Advanced" -> "Go to [app name] (unsafe)" !gcloud auth application-default login --no-browser --client-id-file=$client_file_name --scopes="https://www.googleapis.com/auth/generative-language.retriever,https://www.googleapis.com/auth/cloud-platform"

这将为您提供一个 URL，您应该在本地浏览器中输入该 URL。按照说明完成身份验证和授权。