多模态#
LlamaIndex不仅提供了构建基于语言的应用的能力,还提供了构建多模态应用的能力——结合了语言和图像。
多模态用例类型#
这个领域正在积极探索中,并且正在涌现一些引人入胜的用例。
RAG (检索增强生成)#
所有核心RAG概念:索引、检索和合成,都可以扩展到图像领域。
- 输入可以是文本或图像。
- 存储的知识库可以包含文本或图像。
- 响应生成的输入可以是文本或图像。
- 最终响应可以是文本或图像。
请参阅下面的指南
结构化输出#
您可以使用新的OpenAI GPT4V通过LlamaIndex生成结构化
输出。用户只需指定一个Pydantic对象来定义输出的结构。
请参阅下面的指南
检索增强图像字幕#
理解图像往往需要从知识库中查找信息。这里的一个流程是检索增强图像字幕——首先使用多模态模型为图像生成字幕,然后通过从文本语料库中检索信息来精炼字幕。
请参阅下面的指南
代理#
这里有一些初步工作展示了使用GPT-4V的代理能力。
评估与比较#
这些部分展示了针对不同用例的不同多模态模型之间的比较。
LLaVa-13、Fuyu-8B和MiniGPT-4多模态大模型图像推理比较#
这些notebook展示了如何使用不同的多模态大模型进行图像理解/推理。各种模型的推理由Replicate或OpenAI GPT4-V API支持。我们比较了几种流行的多模态大模型
- GPT4-V (OpenAI API)
- LLava-13B (Replicate)
- Fuyu-8B (Replicate)
- MiniGPT-4 (Replicate)
- CogVLM (Replicate)
请参阅下面的指南
多模态RAG的简单评估#
在本notebook指南中,我们将演示如何评估多模态RAG系统。与仅文本情况一样,我们将分别考虑检索器和生成器的评估。正如我们在关于评估多模态RAG的博客中提到的,我们在这里的方法涉及应用用于评估检索器和生成器(用于仅文本情况)的常用技术的改进版本。这些改进版本是llama-index库的一部分(即评估模块),本notebook将引导您了解如何将它们应用于您的评估用例。
模型指南#
这里是展示如何与不同多模态模型提供者交互的notebook指南。