失效链接处理 |
RAG(Retrieval-Augmented Generation)评测面 PDF 下载
相关截图:
![]() 主要内容:
一、为什么需要 对 RAG 进行评测?
在探索和优化 RAG(检索增强生成器)的过程中,如何有效评估其性能已经成为关键问题。
二、如何合成 RAG 测试集?
假设你已经成功构建了一个RAG 系统,并且现在想要评估它的性能。为了这个目的,你需要一个
评估数据集,该数据集包含以下列:
• question(问题):想要评估的RAG的问题
• ground_truths(真实答案):问题的真实答案
• answer(答案):RAG 预测的答案
• contexts(上下文):RAG 用于生成答案的相关信息列表
前两列代表真实数据,最后两列代表 RAG 预测数据。
要创建这样的数据集,我们首先需要生成问题和答案的元组。
接下来,在RAG上运行这些问题以获得预测结果。
• 生成问题和基准答案(实践中可能会出现偏差)
要生成(问题、答案)元组,我们首先需要准备 RAG 数据,我们将其拆分为块,并将其嵌入向量
数据库中。 完成这些步骤后,我们会指示 LLM 从指定主题中生成 num_questions 个问题,从而得
到问题和答案元组。
为了从给定的上下文中生成问题和答案,我们需要按照以下步骤操作:
1. 选择一个随机块并将其作为根上下文
2. 从向量数据库中检索 K 个相似的上下文
3. 将根上下文和其 K 个相邻上下文的文本连接起来以构建一个更大的上下文
4. 使用这个大的上下文和 num_questions 在以下的提示模板中生成问题和答案
|