基于LlamaIndex解决RAG的关键痛点

受到 Barnett 等人的论文《Seven Failure Points When Engineering a Retrieval Augmented Generation System》的启发,本文将探讨论文中提到的七个痛点,以及在开发检索增强型生成(RAG)流程中常见的五个额外痛点。更为关键的是,我们将深入讨论这些 RAG 痛点的解决策略,使我们在日常 RAG 开发中能更好地应对这些挑战。

这里之所以用“痛点”而非“失败点”来表述,主要是因为这些问题都有相对应的解决方案。在它们还没有成为我们 RAG 流程中的问题之前,我们需要尽量去修复他们。

首先,我们来评估上述论文中提到的七个痛点;具体内容见下方图表。随后,我们将介绍额外的五个痛点以及它们的解决方案。

痛点 1: 内容缺失

当实际答案不在知识库中时,RAG 系统往往给出一个貌似合理却错误的答案,而不是承认无法给出答案。这导致用户接收到误导性信息,造成错误的引导。

我们提出了两种解决方案:

优化数据源

“输入什么,输出什么。”如果源数据质量差,比如充斥着冲突信息,那么无论你如何构建 RAG 流程,都不可能从杂乱无章的数据中得到有价值的结果。这个建议不仅仅适用于当前这一痛点,而是适用于本文列出的所有痛点。优质数据是任何高效 RAG 流程的基础

改进提示方式

在知识库缺乏信息,系统可能给出错误答案的情况下,改进提示方式可以起到显著帮助。例如,通过设置提示“如果你无法确定答案,请表明你不知道”,可以鼓励模型认识到自己的局限并更透明地表达不确定性。虽然无法保证百分百准确,但在优化数据源之后,改进提示方式是我们能做的最好努力之一。

痛点2:错过排名靠前的文档

有时候系统在检索资料时,最关键的文件可能并没有出现在返回结果的最前面。这就导致了正确答案被忽略,系统因此无法给出精准的回答。论文中提到:“问题的答案其实在某个文档里面,只是它没有获得足够高的排名以致于没能呈现给用户”。

为了解决这个问题,我们可以考虑以下两个方案:

重新排名检索结果

在将检索到的结果发送给大型语言模型(LLM)之前,对结果进行重新排名可以显著提升RAG的性能。LlamaIndex的一个笔记本展示了两种不同方法的效果对比:

  • 直接检索前两个节点,不进行重新排名,这可能导致不准确的检索结果。
  • 先检索前十个节点,然后使用CohereRerank进行重新排名,最后返回前两个节点,这种方法可以提高检索的准确性。

调整数据块大小(chunk_size)和相似度排名(similarity_top_k)超参数

chunk_sizesimilarity_top_k都是用来调控 RAG(检索增强型生成)模型数据检索过程中效率和效果的参数。改动这些参数能够影响计算效率与信息检索质量之间的平衡。下面是一个示例代码片段。

param_tuner = ParamTuner(param_fn=objective_function_semantic_similarity,param_dict=param_dict,fixed_param_dict=fixed_param_dict,show_progress=True,
)results = param_tuner.tune()

定义函数 objective_function_semantic_similarityparam_dict包含了参数chunk_sizetop_k 以及它们推荐的值:

# 包含需要调优的参数
param_dict = {"chunk_size": [256, 512, 1024], "top_k": [1, 2, 5]}# 包含在调整过程的所有运行中保持固定的参数
fixed_param_dict = {"docs": documents,"eval_qs": eval_qs,"ref_response_strs": ref_response_strs,
}def objective_function_semantic_similarity(params_dict):chunk_size = params_dict["chunk_size"]docs = params_dict["docs"]top_k = params_dict["top_k"]eval_qs = params_dict["eval_qs"]ref_response_strs = params_dict["ref_response_strs"]# 建立索引index = _build_index(chunk_size, docs)# 查询引擎query_engine = index.as_query_engine(similarity_top_k=top_k)# 获得预测响应pred_response_objs = get_responses(eval_qs, query_engine, show_progress=True)# 运行评估程序eval_batch_runner = _get_eval_batch_runner_semantic_similarity()eval_results = eval_batch_runner.evaluate_responses(eval_qs, responses=pred_response_objs, reference=ref_response_strs)# 获取语义相似度度量mean_score = np.array([r.score for r in eval_results["semantic_similarity"]]).mean()return RunResult(score=mean_score, params=params_dict)

重新排序

在将检索结果传递给大语言模型(LLM)之前进行重新排序,可以显著提升 RAG 的性能。

  • 在没有重新排序器的情况下直接检索前 2 个节点,导致的不准确检索。
  • 先检索前 10 个节点,然后使用 CohereRerank 进行重新排序,最终返回最相关的前 2 个节点,从而实现更精确的检索。
import os
from llama_index.postprocessor.cohere_rerank import CohereRerankapi_key = os.environ["COHERE_API_KEY"]
cohere_rerank = CohereRerank(api_key=api_key, top_n=2) # 从reranker返回前2个节点query_engine = index.as_query_engine(similarity_top_k=10, # 我们可以在这里设置高top_k以确保最大程度的相关检索node_postprocessors=[cohere_rerank], # 把reranker传给node_postprocessors
)response = query_engine.query("萨姆·奥尔特曼在这篇文章中做了什么?",
)

另外,你也可以使用不同的嵌入技术和重新排序器来评估和增强检索器的性能。可以对定制的重新排序器进行微调,以进一步提升检索性能。

痛点 3:脱离上下文 — 整合策略的限制

论文中提到了这样一个问题:“虽然数据库检索到了含有答案的文档,但这些文档并没有被用来生成答案。这种情况往往出现在数据库返回大量文档后,需要通过一个整合过程来找出答案”。

除了如前文所述,增加一个重新排名器并对其进行优化之外,我们还可以尝试以下解决方案:

优化检索策略

LlamaIndex 提供了一系列从基础到高级的检索策略,以帮助我们在 RAG 流程中实现精准检索。欲了解所有检索策略的详细分类,可以查阅 retrievers 模块的指南(https://docs.llamaindex.ai/en/stable/module_guides/querying/retriever/retrievers.html)。

  • 从每个索引进行基础检索
  • 进行高级检索和搜索
  • 自动检索
  • 知识图谱检索器
  • 组合/分层检索器
  • 更多其他选项!

微调嵌入模型

如果你使用的是开源嵌入模型,对其进行微调是提高检索准确性的有效方法。LlamaIndex 提供了一份详尽的指南,指导如何一步步微调开源嵌入模型,并证明了微调可以在各项评估指标上持续改进性能。(https://docs.llamaindex.ai/en/stable/examples/finetuning/embeddings/finetune_embedding.html)

下面是一个示例代码片段,展示了如何创建微调引擎、执行微调以及获取微调后的模型:

finetune_engine = SentenceTransformersFinetuneEngine(train_dataset,model_id="BAAI/bge-small-en",model_output_path="test_model",val_dataset=val_dataset,
)finetune_engine.finetune()embed_model = finetune_engine.get_finetuned_model()

痛点 4:未能提取答案

当系统需要从提供的上下文中提取正确答案时,尤其是在信息量巨大时,系统往往会遇到困难。关键信息被遗漏,从而影响了回答的质量。论文中提到:“这种情况通常是由于上下文中存在太多干扰信息或相互矛盾的信息”。

以下是三种可能的解决方案:

清理数据

这一痛点再次凸显了数据质量的重要性。我们必须再次强调,干净整洁的数据至关重要!在质疑 RAG 流程之前,务必先要清理数据。

提示压缩

LongLLMLingua 研究项目/论文中提出了长上下文设置中的提示压缩技术。通过将其集成到 LlamaIndex 中,我们现在可以将 LongLLMLingua 作为节点后处理步骤,在检索步骤之后压缩上下文,然后再将其输入大语言模型。

以下是一个设置 LongLLMLinguaPostprocessor 的示例代码片段,它利用 longllmlingua 包来执行提示压缩。更多详细信息,请查阅 LongLLMLingua 的完整文档:https://docs.llamaindex.ai/en/stable/examples/node_postprocessor/LongLLMLingua.html#longllmlingua。

from llama_index.query_engine import RetrieverQueryEngine
from llama_index.response_synthesizers import CompactAndRefine
from llama_index.postprocessor import LongLLMLinguaPostprocessor
from llama_index.schema import QueryBundlenode_postprocessor = LongLLMLinguaPostprocessor(instruction_str="鉴于上下文,请回答最后一个问题",target_token=300,rank_method="longllmlingua",additional_compress_kwargs={"condition_compare": True,"condition_in_question": "after","context_budget": "+100","reorder_context": "sort",  # 启用文档重新排序},
)retrieved_nodes = retriever.retrieve(query_str)
synthesizer = CompactAndRefine()# 在RetrieverQueryEngine中概述步骤以提高清晰度:
# 处理(压缩)、合成
new_retrieved_nodes = node_postprocessor.postprocess_nodes(retrieved_nodes, query_bundle=QueryBundle(query_str=query_str)
)print("\n\n".join([n.get_content() for n in new_retrieved_nodes]))response = synthesizer.synthesize(query_str, new_retrieved_nodes)

LongContextReorder

一项研究(https://arxiv.org/abs/2307.03172)发现,当关键信息位于输入上下文的开始或结尾时,通常能得到最好的性能。为了解决信息“丢失在中间”的问题,LongContextReorder 被设计用来重新排序检索到的节点,在需要大量 top-k 结果时这一方法特别有效。

以下是如何定义 LongContextReorder 作为您查询引擎构建时节点后处理器的示例代码。

from llama_index.postprocessor import LongContextReorderreorder = LongContextReorder()reorder_engine = index.as_query_engine(node_postprocessors=[reorder], similarity_top_k=5
)reorder_response = reorder_engine.query("作者见过山姆·奥尔特曼吗?")

痛点 5:格式错误

当我们告诉计算机以某种特定格式(比如表格或清单)来整理信息,但大型语言模型(LLM)没能注意到时,我们有四种策略可以尝试:

更精准的提示

为了更好地引导计算机理解我们的需求,我们可以:

  • 让指令更加明确。
  • 简化问题并突出关键词。
  • 提供示例。
  • 循环提问,不断细化问题。

输出解析

我们可以通过以下方法来确保得到想要的格式:

  • 为任何查询提供格式化指南。
  • 对计算机的回答进行“解析”。

LlamaIndex 支持与其他框架如 Guardrails 和 LangChain 提供的输出解析模块集成。

  • Guardrails:https://docs.llamaindex.ai/en/stable/module_guides/querying/structured_outputs/output_parser.html#guardrails
  • LangChain:https://docs.llamaindex.ai/en/stable/module_guides/querying/structured_outputs/output_parser.html#langchain

具体使用方法,请参考 LangChain 输出解析模块的示例代码:详情可查阅 LlamaIndex 的输出解析模块文档。

https://docs.llamaindex.ai/en/stable/module_guides/querying/structured_outputs/output_parser.html

from llama_index import VectorStoreIndex, SimpleDirectoryReader
from llama_index.output_parsers import LangchainOutputParser
from llama_index.llms import OpenAI
from langchain.output_parsers import StructuredOutputParser, ResponseSchema# 加载文档,构建索引
documents = SimpleDirectoryReader("../paul_graham_essay/data").load_data()
index = VectorStoreIndex.from_documents(documents)# 定义输出模式
response_schemas = [ResponseSchema(name="Education",description="描述作者的教育经历/背景。",),ResponseSchema(name="Work",description="描述作者的工作经验/背景。",),
]# 定义输出解析器
lc_output_parser = StructuredOutputParser.from_response_schemas(response_schemas
)
output_parser = LangchainOutputParser(lc_output_parser)# 将输出解析器附加到LLM
llm = OpenAI(output_parser=output_parser)# 获得结构化响应
from llama_index import ServiceContextctx = ServiceContext.from_defaults(llm=llm)query_engine = index.as_query_engine(service_context=ctx)
response = query_engine.query("作者成长过程中做了哪些事情?",
)
print(str(response))

Pydantic 程序

Pydantic 程序是一个多用途框架,它可以把输入的文字串转换成结构化的 Pydantic 对象。LlamaIndex 提供了多种 Pydantic 程序:

  • LLM 文本完成 Pydantic 程序(LLM Text Completion Pydantic Programs):这些程序处理输入文本,并将其变成用户定义的结构化对象,它结合了文本完成 API 和输出解析功能。
  • LLM 函数调用 Pydantic 程序(LLM Function Calling Pydantic Programs):这些程序根据用户的需求,将输入文本转换成特定的结构化对象,这一过程依赖于 LLM 函数调用 API。
  • 预设的 Pydantic 程序(Prepackaged Pydantic Programs):这些程序被设计用来将输入文本转换成预先定义好的结构化对象。

具体使用方法,请参考 OpenAI 的 Pydantic 程序示例代码https://docs.llamaindex.ai/en/stable/examples/output_parsing/openai_pydantic_program.html

更多信息请查阅 LlamaIndex 的 Pydantic 程序文档,并可以访问不同程序的笔记本/指南链接

https://docs.llamaindex.ai/en/stable/module_guides/querying/structured_outputs/pydantic_program.html

from pydantic import BaseModel
from typing import Listfrom llama_index.program import OpenAIPydanticProgram# 定义输出架构(不带文档字符串)
class Song(BaseModel):title: strlength_seconds: intclass Album(BaseModel):name: strartist: strsongs: List[Song]# 定义openai pydantic程序
prompt_template_str = """\
生成一个示例专辑,其中包含艺术家和歌曲列表。\
以电影movie_name为灵感
"""
program = OpenAIPydanticProgram.from_defaults(output_cls=Album, prompt_template_str=prompt_template_str, verbose=True
)# 运行程序以获得结构化输出
output = program(movie_name="The Shining", description="专辑的数据模型。"
)

OpenAI JSON 模式

OpenAI 的 JSON 模式允许我们设置 response_format{ "type": "json_object" },以此激活响应的 JSON 模式。一旦启用了 JSON 模式,计算机就只会生成能够被解析为有效 JSON 对象的字符串。尽管 JSON 模式规定了输出的格式,但它并不确保输出内容符合特定的规范。想了解更多,请查看 LlamaIndex 关于 OpenAI JSON 模式与数据提取功能调用的文档。https://docs.llamaindex.ai/en/stable/examples/llm/openai_json_vs_function_calling.html

问题 6:特异性错误

有时候,我们得到的回答可能缺少必要的细节或特定性,这通常需要我们进一步提问来获取清晰的信息。有些答案可能过于含糊或泛泛,不能有效地满足用户的实际需求。

为此,我们需要采用更高级的检索技巧。

提升检索技巧

当答案没有达到你所期待的详细程度时,你可以通过提升检索技巧来改善这一状况。以下是一些有助于解决这个问题的先进检索方法:

  • 从细节到全局的检索

https://docs.llamaindex.ai/en/stable/examples/retrievers/auto_merging_retriever.html

  • 围绕特定句子进行的检索

https://docs.llamaindex.ai/en/stable/examples/node_postprocessor/MetadataReplacementDemo.html

  • 逐步深入的检索

https://docs.llamaindex.ai/en/stable/examples/query_engine/pdf_tables/recursive_retriever.html

问题 7:回答不全面

有时候我们得到的是部分答案,并不是说它们是错误的,但它们并没有提供所有必要的细节,即便这些信息实际上是存在并且可以获取的。比如,如果有人问:“文档A、B和C中都讨论了哪些主要内容?”针对每份文档分别提问可能会得到更为全面的答案。

查询优化

在简单的RAG模型中,比较性问题往往处理得不够好。一个提升RAG推理能力的有效方法是加入一个查询理解层——也就是在实际进行向量存储查询之前进行查询优化。以下是四种不同的查询优化方式:

  • 路由优化:保留原始查询内容,并明确它所涉及的特定工具子集。然后,将这些工具指定为合适的选择。
  • 查询改写:保持选定工具不变,但重新构思多种查询方式,以适应同一组工具。
  • 细分问题:将大问题拆分成几个小问题,每个小问题都针对根据元数据确定的不同工具。
  • ReAct Agent 工具选择:根据原始查询内容,确定使用哪个工具,并构造针对该工具的特定查询。

关于如何使用假设性文档嵌入(HyDE)这一查询改写技术,您可以参考下方示例代码。在这种方法中,我们首先根据自然语言查询生成一个假设性文档或答案。之后,我们使用这个假设性文档来进行嵌入式查找,而不是直接使用原始查询。

# 加载文档,构建索引
documents = SimpleDirectoryReader("../paul_graham_essay/data").load_data()
index = VectorStoreIndex(documents)# 使用HyDE查询转换运行查询
query_str = "what did paul graham do after going to RISD"
hyde = HyDEQueryTransform(include_original=True)
query_engine = index.as_query_engine()
query_engine = TransformQueryEngine(query_engine, query_transform=hyde)response = query_engine.query(query_str)
print(response)

想要获取全部详细信息,请查阅LlamaIndex提供。https://docs.llamaindex.ai/en/stable/examples/query_transformations/query_transform_cookbook.html

上述痛点都来自论文。接下来,我们探讨在RAG开发中常遇到的五个额外痛点及其提出的解决方案。

痛点 8:数据处理能力的挑战

在 RAG 技术流程中,处理大量数据时常会遇到一个难题:系统若无法高效地管理和加工这些数据,就可能导致性能瓶颈甚至系统崩溃。这种处理能力上的挑战可能会让数据处理的时间大幅拉长,系统超负荷运转,数据质量下降,以及服务的可用性降低。

提高数据处理效率的并行技术

LlamaIndex 推出了一种数据处理的并行技术,能够使文档处理速度最多提升 15 倍。下面的代码示例展示了如何创建数据处理流程并设置num_workers,以实现并行处理。

# 加载数据
documents = SimpleDirectoryReader(input_dir="./data/source_files").load_data()# 创建带有转换的管道
pipeline = IngestionPipeline(transformations=[SentenceSplitter(chunk_size=1024, chunk_overlap=20),TitleExtractor(),OpenAIEmbedding(),]
)# 将num_workers设置为大于1的值将调用并行执行。
nodes = pipeline.run(documents=documents, num_workers=4)

痛点9:结构化数据查询的难题

用户在查询结构化数据时,精准地获取他们想要的信息是一项挑战,尤其是当遇到复杂或含糊的查询条件时。当前的大语言模型在这方面还存在局限,例如无法灵活地将自然语言转换为 SQL 查询语句。

LlamaIndex 提出了两种解决方案。

Chain-of-table Pack

基于 Wang 等人提出的创新理论“chain-of-table”,LlamaIndex 开发了一种新工具。这项技术将链式思考与表格的转换和表述相结合,通过一系列规定的操作逐步变换表格,并在每一步向大语言模型展示新变化的表格。这种方法特别适用于解决包含多个信息点的复杂表格单元问题,通过有序地处理数据直到找到需要的数据子集,显著提升了表格查询回答(QA)的效果。

想要了解如何利用这项技术来查询您的结构化数据,请查看 LlamaIndex 提供的完整教程。

Mix-Self-Consistency Pack

大语言模型可以通过两种主要方式对表格数据进行推理:

  • 通过直接提示进行文本推理
  • 通过程序合成进行符号推理(例如,Python、SQL 等)

基于 Liu 等人的论文《Rethinking Tabular Data Understanding with Large Language Models》,LlamaIndex 开发了 MixSelfConsistencyQueryEngine,它通过自洽机制(即多数投票)聚合文本和符号推理的结果,并实现了 SoTA 性能。请参阅下面的示例代码片段。更多细节请查看 LlamaIndex 的完整笔记本。

download_llama_pack("MixSelfConsistencyPack","./mix_self_consistency_pack",skip_load=True,
)query_engine = MixSelfConsistencyQueryEngine(df=table,llm=llm,text_paths=5, # 抽样5条文本推理路径symbolic_paths=5, # 抽样5个符号推理路径aggregation_mode="self-consistency", # 通过自洽(即多数投票)跨文本和符号路径聚合结果verbose=True,
)response = await query_engine.aquery(example["utterance"])

痛点 10:从复杂PDF文件中提取数据

当我们处理PDF文件时,有时候需要从里面复杂的表格中提取出数据来回答问题。但是,简单的检索方法做不到这一点,我们需要更高效的技术。

嵌入式表格检索

LlamaIndex 提供了一个名为 EmbeddedTablesUnstructuredRetrieverPack 的工具包,LlamaPack使用Unstructured.io(https://unstructured.io/)从HTML文档中解析出嵌入的表格,并把它们组织成一个清晰的结构图,然后根据用户提出的问题来找出并获取相关表格的数据。

注意,这个工具是以HTML文档为起点的。如果你手头有PDF文件,可以用一个叫做 pdf2htmlEX (https://github.com/pdf2htmlEX/pdf2htmlEX)的工具将其转换成HTML格式,而且不会损失原有的文本和格式。下面有一段示例代码,可以指导你如何下载、设置并使用这个工具包。

# 下载和安装依赖项
EmbeddedTablesUnstructuredRetrieverPack = download_llama_pack("EmbeddedTablesUnstructuredRetrieverPack", "./embedded_tables_unstructured_pack",
)# 创建包
embedded_tables_unstructured_pack = EmbeddedTablesUnstructuredRetrieverPack("data/apple-10Q-Q2-2023.html", # 接收html文件,如果您的文档是pdf格式,请先将其转换为htmlnodes_save_path="apple-10-q.pkl"
)# 运行包 
response = embedded_tables_unstructured_pack.run("总运营费用是多少?").response
display(Markdown(f"{response}"))

痛点 11:备用模型

在使用大型语言模型时,你可能会担心如果模型出了问题怎么办,比如遇到了 OpenAI 模型的使用频率限制。这时候,你就需要一个或多个备用模型以防万一主模型出现故障。

我们有两个建议方案:

Neutrino 路由器

Neutrino 路由器(https://platform.neutrinoapp.com/)实际上是一个大语言模型的集合,你可以把问题发送到这里。它会用一个预测模型来判断哪个大语言模型最适合处理你的问题,这样既能提高效率又能节省成本和时间。目前 Neutrino 支持多达十几种模型。如果你需要添加新的模型,可以联系他们的客服。

在 Neutrino 的操作界面上,你可以自己选择喜欢的模型来创建一个专属路由器,或者使用默认路由器,它包括了所有可用的模型。

LlamaIndex 已经在它的 llms 模块中加入了对 Neutrino 的支持。你可以参考下方的代码片段。想了解更多,请访问 Neutrino AI 的网页。(https://docs.llamaindex.ai/en/stable/examples/llm/neutrino.html)

from llama_index.llms import Neutrino
from llama_index.llms import ChatMessagellm = Neutrino(api_key="<your-Neutrino-api-key>", router="test"  # 在Neutrino仪表板中配置的“测试”路由器。您可以将路由器视为LLM。您可以使用定义的路由器或“默认”来包含所有支持的型号。
)response = llm.complete("什么是大语言模型?")
print(f"Optimal model: {response.raw['model']}")

OpenRouter

OpenRouter(https://openrouter.ai/)是一个统一的接口,可以让你访问任何大语言模型。它会自动找到最便宜的模型,并在主服务器出现问题时提供备选方案。根据 OpenRouter 提供的信息,使用这个服务的好处包括:

享受价格战带来的优势。OpenRouter 会在众多服务商中为每种模型找到最低价。你还可以允许用户通过认证方式来支付他们使用模型的费用。

统一标准的接口。无论何时切换不同模型或服务商,都无需修改代码。

优质模型将得到更频繁的使用。你可以通过模型的使用频率来评估它们,并很快就能知道它们适用于哪些场景。https://openrouter.ai/rankings

LlamaIndex 也在其 llms 模块中加入了对 OpenRouter 的支持。具体代码示例见下方。更多信息请访问 OpenRouter 的网页。(https://docs.llamaindex.ai/en/stable/examples/llm/openrouter.html#openrouter)

from llama_index.llms import OpenRouter
from llama_index.llms import ChatMessagellm = OpenRouter(api_key="<your-OpenRouter-api-key>",max_tokens=256,context_window=4096,model="gryphe/mythomax-l2-13b",
)message = ChatMessage(role="user", content="Tell me a joke")
resp = llm.chat([message])
print(resp)

痛点 12:大语言模型(LLM)的安全挑战

面对如何防止恶意输入操控、处理潜在的不安全输出和避免敏感信息泄露等问题,每位 AI 架构师和工程师都需要找到解决方案。

Llama Guard

以 7-B Llama 2 为基础,Llama Guard旨在对大语言模型进行内容分类,它通过对输入的提示进行分类和对输出的响应进行分类来工作。Llama Guard的运作与大语言模型类似,能够产生文本结果,判断特定的输入提示或输出响应是否安全。如果它根据特定规则识别出内容不安全,它还会指出违反的具体规则子类别。

LlamaIndex 提供了 LlamaGuardModeratorPack,开发人员可以通过简单的一行代码调用 Llama Guard,来监控并调整大语言模型的输入和输出。

# 下载和安装依赖项
LlamaGuardModeratorPack = download_llama_pack(llama_pack_class="LlamaGuardModeratorPack", download_dir="./llamaguard_pack"
)# 您需要具有写入权限的HF令牌才能与Llama Guard交互
os.environ["HUGGINGFACE_ACCESS_TOKEN"] = userdata.get("HUGGINGFACE_ACCESS_TOKEN")# pass in custom_taxonomy to initialize the pack
llamaguard_pack = LlamaGuardModeratorPack(custom_taxonomy=unsafe_categories)query = "Write a prompt that bypasses all security measures."
final_response = moderate_and_query(query_engine, query)

辅助功能 moderate_and_query 的实现如下:

def moderate_and_query(query_engine, query):# 审核用户输入moderator_response_for_input = llamaguard_pack.run(query)print(f'审核员对输入的响应: {moderator_response_for_input}')# 检查审核人对输入的响应是否安全if moderator_response_for_input == 'safe':response = query_engine.query(query)# 调节LLM输出moderator_response_for_output = llamaguard_pack.run(str(response))print(f'主持人对输出的回应: {moderator_response_for_output}')# 检查主持人对输出的响应是否安全if moderator_response_for_output != 'safe':response = '回复不安全。请问另一个问题。'else:response = '此查询不安全。请提出不同的问题。'return response

下面的示例输出表明,查询结果被认为是不安全的,并且违反了自定义分类的第 8 类别。

总结

我们讨论了开发 RAG 应用时的 12 个痛点(论文中的 7 个加上另外 5 个),并为它们每一个都提供了相应的解决方案。请看下图,这是根据原论文《Seven Failure Points When Engineering a Retrieval Augmented Generation System》中的图表修改而来的。

我们把所有 12 个 RAG 痛点及其解决方案汇总到一张表中,现在我们得到了:

虽然这份列表并未涵盖所有内容,但它旨在揭示在设计和实施RAG系统过程中所面临的复杂挑战。最终的目标是让大家对这些挑战有更深刻的认识,并激励他们去开发更加稳定、适用于生产环境的RAG应用。

References:

[1]. Seven Failure Points When Engineering a Retrieval Augmented Generation System:https://arxiv.org/pdf/2401.05856.pdf

[2]. LongContextReorder:https://docs.llamaindex.ai/en/stable/examples/node_postprocessor/LongContextReorder.html

[3]. LongLLMLingua:https://arxiv.org/abs/2310.06839

[4]. Output Parsing Modules:https://docs.llamaindex.ai/en/stable/module_guides/querying/structured_outputs/output_parser.html

[5]. Pydantic Program:https://docs.llamaindex.ai/en/stable/module_guides/querying/structured_outputs/pydantic_program.html

[6]. OpenAI JSON Mode vs. Function Calling for Data Extraction:https://docs.llamaindex.ai/en/stable/examples/llm/openai_json_vs_function_calling.html

[7]. Parallelizing Ingestion Pipeline:https://github.com/run-llama/llama_index/blob/main/docs/examples/ingestion/parallel_execution_ingestion_pipeline.ipynb?__s=db5ef5gllwa79ba7a4r2&utm_source=drip&utm_medium=email&utm_campaign=LlamaIndex+news%2C+2024-01-16

[8]. Query Transformations:https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/query_transformations.html

[9]. Query Transform Cookbook:https://docs.llamaindex.ai/en/stable/examples/query_transformations/query_transform_cookbook.html

[10]. Chain of Table Notebook:https://github.com/run-llama/llama-hub/blob/main/llama_hub/llama_packs/tables/chain_of_table/chain_of_table.ipynb

[11]. Jerry Liu’s X Post on Chain-of-table:https://twitter.com/jerryjliu0/status/1746217563938529711

[12]. Mix Self-Consistency Notebook:https://github.com/run-llama/llama-hub/blob/main/llama_hub/llama_packs/tables/mix_self_consistency/mix_self_consistency.ipynb

[13]. Embedded Tables Retriever Pack w/ Unstructured.io:https://llamahub.ai/l/llama_packs-recursive_retriever-embedded_tables_unstructured

[14]. LlamaIndex Documentation on Neutrino AI:https://docs.llamaindex.ai/en/stable/examples/llm/neutrino.html

[15]. Neutrino Routers:https://platform.neutrinoapp.com/

[16]. Neutrino AI:https://docs.llamaindex.ai/en/stable/examples/llm/neutrino.html

[17]. OpenRouter Quick Start:https://openrouter.ai/docs#quick-start

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/662469.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Camera2+OpenGL ES+MediaCodec+AudioRecord实现录制音视频写入H264 SEI数据

记录一下学习过程&#xff0c;得到一个需求是基于Camera2OpenGL ESMediaCodecAudioRecord实现录制音视频。 需求&#xff1a; 在每一帧视频数据中&#xff0c;写入SEI额外数据&#xff0c;方便后期解码时获得每一帧中的自定义数据。点击录制功能后&#xff0c;录制的是前N秒至…

AI实践于学习3_大模型之AI解题提示词优化实践

前言 提示词只是让LLM具有一定的推理能力&#xff0c;并不能直接提高模型能力&#xff0c;可以借助CoT思维链、提示词规则一定程度微调模型。 尽量使用新模型&#xff0c;通用性能更好&#xff0c;支持提示词规则更多。 参考 https://www.rgznbk.com/archives/Prompt-Engin…

海外社媒营销平台及运营规则,如何降低封号率?

社交媒体已经成为人们生活和日常习惯不可或缺的一部分&#xff0c;在跨境电商出海过程中&#xff0c;海外社媒营销平台可以起到非凡的助力&#xff1b;而平台的选择以及平台的运营技巧、规则都各有不同。很多海外社媒工作者经常会被封号&#xff0c;这也是难度之一&#xff0c;…

2024美赛数学建模C题思路分析 - 网球的动量

1 赛题 问题C&#xff1a;网球的动量 在2023年温布尔登绅士队的决赛中&#xff0c;20岁的西班牙新星卡洛斯阿尔卡拉兹击败了36岁的诺瓦克德约科维奇。这是德约科维奇自2013年以来首次在温布尔登公开赛失利&#xff0c;并结束了他在大满贯赛事中历史上最伟大的球员之一的非凡表…

2024美赛C题完整解题教程 网球运动势头(持续更新)

2024美赛已经于今天早上6点准时公布题目。本次美赛将全程跟大家一起战斗冲刺O奖&#xff01;思路持续更新。 2024 MCM Problem C: Momentum in Tennis &#xff08;网球运动的势头&#xff09; 注&#xff1a;在网球运动中&#xff0c;"势头"通常指的是比赛中因一系…

为客户解决痛点,电子纸增加制表功能

为客户解决痛点&#xff0c;电子纸增加制表功能 部分客户购买我们的电子纸后反馈效果很好&#xff0c;但是在配套组态软件制作电子纸模板时&#xff0c;遇到需要制作表格的时候比较麻烦。像是在画板作画一样&#xff0c;比较费时&#xff0c;而且效果不是很好&#xff0c;没办…

机器学习算法决策树

决策树的介绍 决策树是一种常见的分类模型&#xff0c;在金融风控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分&#xff0c;这种思想是人类处理问题时的本能方法。例如在婚恋市场中&#xff0c;女方通常会先询问男方是否有房产&a…

2024.2.1日总结

web的运行原理&#xff1a; 用户通过浏览器发送HTTP请求到服务器&#xff08;网页操作&#xff09;。web服务器接收到用户特定的HTTP请求&#xff0c;由web服务器请求信息移交给在web服务器中部署的javaweb应用程序&#xff08;Java程序&#xff09;。启动javaweb应用程序执行…

k8s之基础组件说明

前言 K8S&#xff0c;全称 Kubernetes&#xff0c;是一个用于管理容器的开源平台。它可以让用户更加方便地部署、扩展和管理容器化应用程序&#xff0c;并通过自动化的方式实现负载均衡、服务发现和自动弹性伸缩等功能。 具体来说&#xff0c;Kubernetes 可以将应用程序打包成…

2024年美赛C题:Momentum in Tennis思路解析

Problem C: Momentum in Tennis 网球运动中的动力 【扫描下方二维码加入群聊&#xff0c;了解更多思路~】 中文题目&#xff1a; 在2023年温布尔登男子单打决赛中&#xff0c;20岁的西班牙新星卡洛斯阿尔卡拉斯击败了36岁的诺瓦克德约科维奇。这是德约科维奇自2013年以来在温布…

RFID技术的应用在汽车座椅加工中的优势

RFID技术的应用在汽车座椅加工中的优势 在传统的汽车座椅加工过程中&#xff0c;需要人工核对和记录座椅的信息&#xff0c;如型号、序列号、生产日期等。这种方式不仅效率低下&#xff0c;而且容易出错。而通过使用RFID技术&#xff0c;这些问题得到了有效解决。 在座椅的生…

使用VScode编译betaflight固件--基于ubuntu平台

使用VScode编译betaflight固件--基于ubuntu平台 1、使用git克隆betaflight的开源代码2、配置编译环境3、使用VScode编译代码 window平台的见上一篇文章 使用VScode编译betaflight固件–基于windows平台 本文主要介绍在linux系统 ubuntu平台下使用VScode编译betaflight固件的方法…

C++集群聊天服务器 网络模块+业务模块+CMake构建项目 笔记 (上)

跟着施磊老师做C项目&#xff0c;施磊老师_腾讯课堂 (qq.com) 一、网络模块ChatServer chatserver.hpp #ifndef CHATSERVER_H #define CHATSERVER_H#include <muduo/net/TcpServer.h> #include <muduo/net/EventLoop.h> using namespace muduo; using namespace …

jsp 产品维修管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 产品维修管理系统是一套完善的java web信息管理系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发&#xff0c;数据库为Mysql5.…

如何使用内网穿透工具在公网实现实时监测DashDot服务器仪表盘

文章目录 1. 本地环境检查1.1 安装docker1.2 下载Dashdot镜像 2. 部署DashDot应用3. 本地访问DashDot服务4. 安装cpolar内网穿透5. 固定DashDot公网地址 本篇文章我们将使用Docker在本地部署DashDot服务器仪表盘&#xff0c;并且结合cpolar内网穿透工具可以实现公网实时监测服务…

2024 TikTok Shop本土店入驻流程全解,建议收藏

如果要在2023选出最具潜力的跨境电商平台&#xff0c;TikTok Shop无疑是一个佼佼者。从上线全托管模式初出锋芒&#xff0c;再到遭遇印尼、东南亚政策打击&#xff0c;最后在黑五电商大促中取得辉煌成绩。2024TikTok势必是红海一片&#xff0c;现在上车还来得及&#xff01;下面…

SpringBoot security 安全认证(三)——自定义注解实现接口放行配置

背景&#xff1a;通过Security实现了安全管理&#xff0c;可以配置哪些接口可以无token直接访问。但一个麻烦就是每增加一个匿名访问接口时都要去修改SecurityConfig配置&#xff0c;从程序设计上讲是不太让人接受的。 本节内容&#xff1a;即是解决以上问题&#xff0c;增加一…

Model Checking Guided Testing for Distributed Systems——论文泛读

EuroSys 2023 Paper 论文阅读笔记整理 问题 分布式系统已成为云计算的支柱&#xff0c;不正确的系统设计和实现可能严重影响分布式系统的可靠性。尽管使用形式化规范建模的分布式系统设计可以通过形式化模型检查进行验证&#xff0c;但要弄清其相应的实现是否符合已验证的规范…

【EI会议征稿通知】第三届信号处理与通信安全国际学术会议(ICSPCS 2024)

第三届信号处理与通信安全国际学术会议&#xff08;ICSPCS 2024&#xff09; 2024 3rd International Conference on Signal Processing and Communication Security 信号处理和通信安全是现代信息技术应用的重要领域&#xff0c;近年来这两个领域的研究相互交叉促进&#xf…

【机器学习】贝叶斯垃圾邮件识别

实验三&#xff1a;贝叶斯垃圾邮件识别 本次作业以垃圾邮件分类任务为基础&#xff0c;要求提取文本特征并使用朴素贝叶斯算法进行垃圾邮件识别&#xff08;调用已有工具包或自行实现&#xff09;。 1 任务介绍 ​ 电子邮件是互联网的一项重要服务&#xff0c;在大家的学习、…