IPEX-LLM on Intel GPU¶

IPEX-LLM 是一个 PyTorch 库，用于在 Intel CPU 和 GPU（例如带有集成显卡 (iGPU) 的本地 PC、独立显卡如 Arc、Flex 和 Max）上以非常低的延迟运行 LLM。

此示例介绍如何使用 LlamaIndex 与 ipex-llm 交互，以在 Intel GPU 上进行文本生成和聊天。

注意

您可以参考此处获取 IpexLLM 的完整示例。请注意，要在 Intel GPU 上运行，请在运行示例时在命令行参数中指定 -d 'xpu' 或 -d 'xpu:<device_id>'。

安装先决条件¶

要想在 Intel GPU 上受益于 IPEX-LLM，需要进行几个先决步骤，包括工具安装和环境准备。

如果您是 Windows 用户，请访问在带有 Intel GPU 的 Windows 上安装 IPEX-LLM 指南，并按照安装先决条件更新 GPU 驱动程序（可选）并安装 Conda。

如果您是 Linux 用户，请访问在带有 Intel GPU 的 Linux 上安装 IPEX-LLM，并按照安装先决条件安装 GPU 驱动程序、Intel® oneAPI Base Toolkit 2024.0 和 Conda。

安装 `llama-index-llms-ipex-llm`¶

安装先决条件后，您应该已经创建了一个包含所有先决条件的 conda 环境，激活您的 conda 环境并按如下方式安装 llama-index-llms-ipex-llm：

conda activate <your-conda-env-name>

pip install llama-index-llms-ipex-llm[xpu] --extra-index-url https://pytorch-extension.intel.com/release-whl/stable/xpu/us/

此步骤还将安装 ipex-llm 及其依赖项。

注意

您也可以使用 https://pytorch-extension.intel.com/release-whl/stable/xpu/cn/ 作为 extra-indel-url。

运行时配置¶

为了获得最佳性能，建议根据您的设备设置几个环境变量

适用于使用英特尔酷睿 Ultra 集成显卡的 Windows 用户¶

在 Anaconda Prompt 中

set SYCL_CACHE_PERSISTENT=1
set BIGDL_LLM_XMX_DISABLED=1

适用于使用英特尔 Arc A 系列显卡的 Linux 用户¶

# Configure oneAPI environment variables. Required step for APT or offline installed oneAPI.
# Skip this step for PIP-installed oneAPI since the environment has already been configured in LD_LIBRARY_PATH.
source /opt/intel/oneapi/setvars.sh

# Recommended Environment Variables for optimal performance
export USE_XETLA=OFF
export SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS=1
export SYCL_CACHE_PERSISTENT=1

注意

对于每个模型首次在 Intel iGPU/Intel Arc A300 系列或 Pro A60 上运行时，可能需要几分钟进行编译。

对于其他 GPU 类型，Windows 用户请参考此处，Linux 用户请参考此处。

`IpexLLM`¶

初始化 IpexLLM 时设置 device_map="xpu" 将把 LLM 模型放在 Intel GPU 上，并受益于 IPEX-LLM 优化。

注意

如果您有多个可用的 Intel GPU，可以设置 device="xpu:<device_id>"，其中 device_id 从 0 开始计数。默认情况下，device="xpu" 等于 device="xpu:0"。

在加载 Zephyr 模型之前，您需要定义 completion_to_prompt 和 messages_to_prompt 来格式化提示。请按照模型卡片中的说明遵循 zephyr-7b-alpha 的正确提示格式。这对于准备模型能够准确解释的输入至关重要。使用 IpexLLM 通过 IpexLLM.from_model_id 在本地加载 Zephyr 模型。它将直接以 Huggingface 格式加载模型，并自动将其转换为低位格式进行推理。

# Transform a string into input zephyr-specific input
def completion_to_prompt(completion):
    return f"<|system|>\n</s>\n<|user|>\n{completion}</s>\n<|assistant|>\n"


# Transform a list of chat messages into zephyr-specific input
def messages_to_prompt(messages):
    prompt = ""
    for message in messages:
        if message.role == "system":
            prompt += f"<|system|>\n{message.content}</s>\n"
        elif message.role == "user":
            prompt += f"<|user|>\n{message.content}</s>\n"
        elif message.role == "assistant":
            prompt += f"<|assistant|>\n{message.content}</s>\n"

    # ensure we start with a system prompt, insert blank if needed
    if not prompt.startswith("<|system|>\n"):
        prompt = "<|system|>\n</s>\n" + prompt

    # add final assistant prompt
    prompt = prompt + "<|assistant|>\n"

    return prompt

from llama_index.llms.ipex_llm import IpexLLM

llm = IpexLLM.from_model_id(
    model_name="HuggingFaceH4/zephyr-7b-alpha",
    tokenizer_name="HuggingFaceH4/zephyr-7b-alpha",
    context_window=512,
    max_new_tokens=128,
    generate_kwargs={"do_sample": False},
    completion_to_prompt=completion_to_prompt,
    messages_to_prompt=messages_to_prompt,
    device_map="xpu",
)

请注意，在本示例中，我们将使用 HuggingFaceH4/zephyr-7b-alpha 模型进行演示。这需要更新 transformers 和 tokenizers 包。
pip install -U transformers==4.37.0 tokenizers==0.15.2

然后您可以正常执行补全任务或聊天任务

print("----------------- Complete ------------------")
completion_response = llm.complete("Once upon a time, ")
print(completion_response.text)
print("----------------- Stream Complete ------------------")
response_iter = llm.stream_complete("Once upon a time, there's a little girl")
for response in response_iter:
    print(response.delta, end="", flush=True)
print("----------------- Chat ------------------")
from llama_index.core.llms import ChatMessage

message = ChatMessage(role="user", content="Explain Big Bang Theory briefly")
resp = llm.chat([message])
print(resp)
print("----------------- Stream Chat ------------------")
message = ChatMessage(role="user", content="What is AI?")
resp = llm.stream_chat([message], max_tokens=256)
for r in resp:
    print(r.delta, end="")

另外，您可以将低位模型保存到磁盘一次，然后使用 from_model_id_low_bit 而不是 from_model_id 来重新加载以供后续使用 - 甚至可以在不同的机器上使用。它节省空间，因为低位模型比原始模型所需的磁盘空间少得多。而且 from_model_id_low_bit 在速度和内存使用方面也比 from_model_id 更高效，因为它跳过了模型转换步骤。

要保存低位模型，请按如下方式使用 save_low_bit。然后从保存的低位模型路径加载模型。同时使用 device_map 将模型加载到 xpu。

请注意，低位模型的保存路径仅包含模型本身，不包含分词器。如果您希望将所有内容放在一个位置，则需要手动从原始模型目录下载或复制分词器文件到保存低位模型的位置。

尝试使用加载的低位模型进行流式补全。

saved_lowbit_model_path = (
    "./zephyr-7b-alpha-low-bit"  # path to save low-bit model
)

llm._model.save_low_bit(saved_lowbit_model_path)
del llm

llm_lowbit = IpexLLM.from_model_id_low_bit(
    model_name=saved_lowbit_model_path,
    tokenizer_name="HuggingFaceH4/zephyr-7b-alpha",
    # tokenizer_name=saved_lowbit_model_path,  # copy the tokenizers to saved path if you want to use it this way
    context_window=512,
    max_new_tokens=64,
    completion_to_prompt=completion_to_prompt,
    generate_kwargs={"do_sample": False},
    device_map="xpu",
)

response_iter = llm_lowbit.stream_complete("What is Large Language Model?")
for response in response_iter:
    print(response.delta, end="", flush=True)