关键词

BaseKeywordTableRetriever #

基类: `BaseRetriever`

基础关键词表检索器。

参数在子类之间共享。

参数

名称

类型	描述	默认值	keyword_extract_template
`Optional[BasePromptTemplate]`	`一个关键词提取提示（参见 :ref:Prompt-Templates）。`	query_keyword_extract_template	`无`
`一个查询关键词提取提示（参见 :ref:Prompt-Templates）。`	`一个关键词提取提示（参见 :ref:Prompt-Templates）。`	refine_template	`无`
`一个优化提示（参见 :ref:Prompt-Templates）。`	`一个关键词提取提示（参见 :ref:Prompt-Templates）。`	必需	text_qa_template
`一个问答提示（参见 :ref:Prompt-Templates）。`	`一个关键词提取提示（参见 :ref:Prompt-Templates）。`	max_keywords_per_query	text_qa_template
`int`	`从查询中提取的最大关键词数量。`	num_chunks_per_query	`10`
`查询的最大文本块数量。`	`从查询中提取的最大关键词数量。`	源代码位于 `llama-index-core/llama_index/core/indices/keyword_table/retrievers.py`	`10`

KeywordTableGPTRetriever #

class BaseKeywordTableRetriever(BaseRetriever):
    """
    Base Keyword Table Retriever.

    Arguments are shared among subclasses.

    Args:
        keyword_extract_template (Optional[BasePromptTemplate]): A Keyword
            Extraction Prompt
            (see :ref:`Prompt-Templates`).
        query_keyword_extract_template (Optional[BasePromptTemplate]): A Query
            Keyword Extraction
            Prompt (see :ref:`Prompt-Templates`).
        refine_template (Optional[BasePromptTemplate]): A Refinement Prompt
            (see :ref:`Prompt-Templates`).
        text_qa_template (Optional[BasePromptTemplate]): A Question Answering Prompt
            (see :ref:`Prompt-Templates`).
        max_keywords_per_query (int): Maximum number of keywords to extract from query.
        num_chunks_per_query (int): Maximum number of text chunks to query.

    """

    def __init__(
        self,
        index: BaseKeywordTableIndex,
        keyword_extract_template: Optional[BasePromptTemplate] = None,
        query_keyword_extract_template: Optional[BasePromptTemplate] = None,
        max_keywords_per_query: int = 10,
        num_chunks_per_query: int = 10,
        callback_manager: Optional[CallbackManager] = None,
        object_map: Optional[dict] = None,
        verbose: bool = False,
        **kwargs: Any,
    ) -> None:
        """Initialize params."""
        self._index = index
        self._index_struct = index.index_struct
        self._docstore = index.docstore

        self.max_keywords_per_query = max_keywords_per_query
        self.num_chunks_per_query = num_chunks_per_query
        self.keyword_extract_template = (
            keyword_extract_template or DEFAULT_KEYWORD_EXTRACT_TEMPLATE
        )
        self.query_keyword_extract_template = query_keyword_extract_template or DQKET
        super().__init__(
            callback_manager=callback_manager or Settings.callback_manager,
            object_map=object_map,
            verbose=verbose,
        )

    @abstractmethod
    def _get_keywords(self, query_str: str) -> List[str]:
        """Extract keywords."""

    def _retrieve(
        self,
        query_bundle: QueryBundle,
    ) -> List[NodeWithScore]:
        """Get nodes for response."""
        logger.info(f"> Starting query: {query_bundle.query_str}")
        keywords = self._get_keywords(query_bundle.query_str)
        logger.info(f"query keywords: {keywords}")

        # go through text chunks in order of most matching keywords
        chunk_indices_count: Dict[str, int] = defaultdict(int)
        keywords = [k for k in keywords if k in self._index_struct.keywords]
        logger.info(f"> Extracted keywords: {keywords}")
        for k in keywords:
            for node_id in self._index_struct.table[k]:
                chunk_indices_count[node_id] += 1
        sorted_chunk_indices = sorted(
            chunk_indices_count.keys(),
            key=lambda x: chunk_indices_count[x],
            reverse=True,
        )
        sorted_chunk_indices = sorted_chunk_indices[: self.num_chunks_per_query]
        sorted_nodes = self._docstore.get_nodes(sorted_chunk_indices)

        if logging.getLogger(__name__).getEffectiveLevel() == logging.DEBUG:
            for chunk_idx, node in zip(sorted_chunk_indices, sorted_nodes):
                logger.debug(
                    f"> Querying with idx: {chunk_idx}: "
                    f"{truncate_text(node.get_content(), 50)}"
                )
        return [NodeWithScore(node=node) for node in sorted_nodes]

KeywordTableGPTRetriever #

基类：BaseKeywordTableRetriever

关键词表索引 GPT 检索器。

使用 GPT 提取关键词。在使用 retriever_mode="default" 时设置。

参数请参考 BaseGPTKeywordTableQuery。

KeywordTableGPTRetriever #

class KeywordTableGPTRetriever(BaseKeywordTableRetriever):
    """
    Keyword Table Index GPT Retriever.

    Extracts keywords using GPT. Set when using `retriever_mode="default"`.

    See BaseGPTKeywordTableQuery for arguments.

    """

    def __init__(
        self,
        index: BaseKeywordTableIndex,
        keyword_extract_template: Optional[BasePromptTemplate] = None,
        query_keyword_extract_template: Optional[BasePromptTemplate] = None,
        max_keywords_per_query: int = 10,
        num_chunks_per_query: int = 10,
        llm: Optional[LLM] = None,
        callback_manager: Optional[CallbackManager] = None,
        object_map: Optional[dict] = None,
        verbose: bool = False,
        **kwargs: Any,
    ) -> None:
        """Initialize params."""
        self._llm = llm or Settings.llm

        super().__init__(
            index=index,
            keyword_extract_template=keyword_extract_template,
            query_keyword_extract_template=query_keyword_extract_template,
            max_keywords_per_query=max_keywords_per_query,
            num_chunks_per_query=num_chunks_per_query,
            callback_manager=callback_manager or Settings.callback_manager,
            object_map=object_map,
            verbose=verbose,
        )

    def _get_keywords(self, query_str: str) -> List[str]:
        """Extract keywords."""
        response = self._llm.predict(
            self.query_keyword_extract_template,
            max_keywords=self.max_keywords_per_query,
            question=query_str,
        )
        keywords = extract_keywords_given_response(response, start_token="KEYWORDS:")
        return list(keywords)

KeywordTableSimpleRetriever #

基类：BaseKeywordTableRetriever

关键词表索引 Simple 检索器。

使用基于简单正则表达式的关键词提取器提取关键词。在使用 retriever_mode="simple" 时设置。

参数请参考 BaseGPTKeywordTableQuery。

KeywordTableGPTRetriever #

class KeywordTableSimpleRetriever(BaseKeywordTableRetriever):
    """
    Keyword Table Index Simple Retriever.

    Extracts keywords using simple regex-based keyword extractor.
    Set when `retriever_mode="simple"`.

    See BaseGPTKeywordTableQuery for arguments.

    """

    def _get_keywords(self, query_str: str) -> List[str]:
        """Extract keywords."""
        return list(
            simple_extract_keywords(query_str, max_keywords=self.max_keywords_per_query)
        )

KeywordTableRAKERetriever #

基类：BaseKeywordTableRetriever

关键词表索引 RAKE 检索器。

使用 RAKE 关键词提取器提取关键词。在使用 retriever_mode="rake" 时设置。

参数请参考 BaseGPTKeywordTableQuery。

KeywordTableGPTRetriever #

class KeywordTableRAKERetriever(BaseKeywordTableRetriever):
    """
    Keyword Table Index RAKE Retriever.

    Extracts keywords using RAKE keyword extractor.
    Set when `retriever_mode="rake"`.

    See BaseGPTKeywordTableQuery for arguments.

    """

    def _get_keywords(self, query_str: str) -> List[str]:
        """Extract keywords."""
        return list(
            rake_extract_keywords(query_str, max_keywords=self.max_keywords_per_query)
        )

关键词

基类: BaseRetriever

KeywordTableGPTRetriever #

KeywordTableSimpleRetriever #

KeywordTableRAKERetriever #

基类: `BaseRetriever`