基于大模型和向量数据库的 RAG 示例

1        RAG 介绍

RAG是一种先进的自然语言处理方法,它结合了信息检索和文本生成技术,用于提高问答系统、聊天机器人等应用的性能。

2        RAG 的工作流程

  1. 文档加载(Document Loading)

    • 从各种来源加载大量文档数据。
    • 这些文档将作为知识库,用于后续的信息检索。
  2. 文档分割(Document Splitting)

    • 将加载的文档分割成更小的段落或部分。
    • 这有助于提高检索的准确性和效率。
  3. 嵌入向量生成(Embedding Generation)

    • 对每个文档或文档的部分生成嵌入向量。
    • 这些嵌入向量捕捉文档的语义信息,方便后续的相似度比较。
  4. 写入向量数据库(Writing to Vector Database)

    • 将生成的嵌入向量存储在一个向量数据库中。
    • 数据库支持高效的相似度搜索操作。
  5. 查询生成(Query Generation)

    • 用户提出一个问题或输入一个提示。
    • RAG模型根据输入生成一个或多个相关的查询。
  6. 文档检索(Document Retrieval)

    • 使用生成的查询在向量数据库中检索相关文档。
    • 选择与查询最相关的文档作为信息源。
  7. 上下文融合(Context Integration)

    • 将检索到的文档内容与原始问题或提示融合,构成扩展的上下文。
  8. 答案生成(Answer Generation)

    • 基于融合后的上下文,RAG生成模型产生最终的回答或文本。
    • 这一步骤旨在综合原始输入和检索到的信息。

3        准备环境

3.1        向量数据库环境

已经通过百度向量数据库测试申请的才能访问创建,地址:VectorDB 向量数据库官网页-百度智能云

1        创建百度向量数据库实例,注意需要地域,可用区需要和 BCC 保持在同一个 VPC 内。 地址:百度智能云-向量数据库

image1.png

2        创建成功后,通过实例详情页查看访问的地址信息和账号信息,用于访问操作向量数据库。如例子截图,访问信息如下:

# 访问地址格式:http://${IP}:${PORT}
访问地址:http://192.168.20.4:5287
账号:root
密钥:xxxx

image2.png

image3.png

3.2         开通千帆 Embedding 模型

千帆模型开通付费之后才能使用,开通不会产生费用,且有代金券赠送

1        开通千帆 Embedding 模型的收费,地址: 百度智能云千帆大模型平台

image4.png

2        右上角个人中心的安全认证里面提取用于鉴权调用 Embedding 模型的 Access Key 和 Secret Key

image5.png

3.3        客户端环境

3.3.1        数据准备和写入

本例子使用的是 bcc 计算型 c5 2c4g 实例基于 Centos 系统作为例子,但不仅限于 bcc,只要是同 vpc 内的服务器产品都可以。已经有 BCC 客户端的用户忽略步骤 1。

1        创建 BCC 客户端。 地址:百度智能云

image6.png

2        登录创建的实例进行环境准备,部署安装 python 环境和搭建知识库所必须的依赖包,

# 安装 python 3.9
yum install -y python39
# langchain 依赖包,用于把文本数据转化为向量数据。
pip3.9 install langchain
# pymochow 依赖包,用于访问和操作百度向量数据库。
pip3.9 install pymochow
# qianfan 依赖包,用于访问千帆大模型。
pip3.9 install qianfan
# pdfplumber 依赖包,加载除了 pdf 文档。
pip3.9 install pdfplumber
# 创建项目目录
mkdir -p knowledge/example_data && cd knowledge

3        上传一个 PDF 文件到 knowledge/example_data 目录下

4        创建访问的配置文件

# config.py
import os
from pymochow.auth.bce_credentials import BceCredentials# 定义配置信息
account = 'root'
api_key = '修改为你的密钥'
endpoint = '修改为之前记录的访问地址,如 http://192.168.20.4:5287'# 初始化BceCredentials对象
credentials = BceCredentials(account, api_key)# 设置千帆AI平台的安全认证信息(AK/SK),通过环境变量
# 注意替换以下参数为您的Access Key和Secret Key
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"

5        创建 document 数据库

import pymochow
from pymochow.configuration import Configuration
import config  # 导入配置文件config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
client = pymochow.MochowClient(config_obj)try:db = client.create_database("document")
except Exception as e:  # 捕获所有类型的异常print(f"Error: {e}")  # 打印异常信息
db_list = client.list_databases()
for db_name in db_list:print(db_name.database_name)
client.close()

6        创建 chunks 数据表

import time
import pymochow  # 导入pymochow库,用于操作数据库
from pymochow.configuration import Configuration  # 用于配置客户端
import config  # 导入配置文件,包含身份验证和终端信息# 导入pymochow模型相关的类和枚举类型
from pymochow.model.schema import Schema, Field, VectorIndex, SecondaryIndex, HNSWParams
from pymochow.model.enum import FieldType, IndexType, MetricType, TableState
from pymochow.model.table import Partition# 使用配置文件中的信息初始化客户端
config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
client = pymochow.MochowClient(config_obj)# 选择或创建数据库
db = client.database("document")# 定义数据表的字段
fields = [Field("id", FieldType.UINT64, primary_key=True, partition_key=True, auto_increment=False, not_null=True),Field("source", FieldType.STRING),Field("author", FieldType.STRING, not_null=True),Field("vector", FieldType.FLOAT_VECTOR, dimension=384)
]# 定义数据表的索引
indexes = [VectorIndex(index_name="vector_idx", field="vector", index_type=IndexType.HNSW, metric_type=MetricType.L2, params=HNSWParams(m=32, efconstruction=200)),SecondaryIndex(index_name="author_idx", field="author")
]# 尝试创建数据表,捕获并打印可能出现的异常
try:table = db.create_table(table_name="chunks", replication=3, partition=Partition(partition_num=1), schema=Schema(fields=fields, indexes=indexes))
except Exception as e:  # 捕获所有类型的异常print(f"Error: {e}")  # 打印异常信息# 轮询数据表状态,直到表状态为NORMAL,表示表已准备好
while True:time.sleep(2)  # 每次检查前暂停2秒,减少对服务器的压力table = db.describe_table("chunks")if table.state == TableState.NORMAL:  # 表状态为NORMAL,跳出循环breaktime.sleep(10)  # 如果状态不是NORMAL,等待更长时间再次检查# 打印数据表的详细信息
print("table: {}".format(table.to_dict()))client.close()  # 关闭客户端连接

7        从PDF文档中加载数据、将文档内容分割为更小的文本块以及利用千帆AI平台的接口来对文本进行向量化表示,并且写到 chunks 表,本例子会用小的文档作为例子,用户可以根据实际情况加载。

# 导入必要的库
from langchain_community.document_loaders import PDFPlumberLoader  # 用于加载PDF文档
from langchain.text_splitter import RecursiveCharacterTextSplitter  # 用于文本分割
import os  # 用于操作系统功能,如设置环境变量
import qianfan  # 千帆AI平台SDK
import time  # 用于暂停执行,避免请求频率过高
import pymochow
import config  # 导入配置文件
from pymochow.model.table import Row # 用于写入向量数据
from pymochow.configuration import Configuration# 加载PDF文档
loader = PDFPlumberLoader("./example_data/ai-paper.pdf")  # 指定PDF文件路径
documents = loader.load()  # 加载文档
print(documents[0])  # 打印加载的第一个文档内容# 设置文本分割器,指定分割的参数
# chunk_size定义了每个分割块的字符数,chunk_overlap定义了块之间的重叠字符数
# separators列表定义了用于分割的分隔符
text_splitter = RecursiveCharacterTextSplitter(chunk_size=384, chunk_overlap=0, separators=["\n\n", "\n", " ", "", "。", ","]
)
all_splits = text_splitter.split_documents(documents)  # 对文档进行分割
print(all_splits[0])  # 打印分割后的第一个块内容emb = qianfan.Embedding()  # 初始化嵌入模型对象embeddings = []  # 用于存储每个文本块的嵌入向量
for chunk in all_splits:  # 遍历所有分割的文本块# 获取文本块的嵌入向量,使用默认模型Embedding-V1resp = emb.do(texts=[chunk.page_content])embeddings.append(resp['data'][0]['embedding'])  # 将嵌入向量添加到列表中time.sleep(1)  # 暂停1秒,避免请求过于频繁
print(embeddings[0])  # 打印第一个文本块的嵌入向量# 逐行写入向量化数据
rows = []
for index, chunk in enumerate(all_splits):row = Row(id=index,source=chunk.metadata["source"],author=chunk.metadata["Author"],vector=embeddings[index])rows.append(row)
# 打印第一个Row对象转换成的字典格式,以验证数据结构
print(rows[0].to_dict())# 读取数据库配置文件,并且初始化连接
config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
client = pymochow.MochowClient(config_obj)# 选择或创建数据库
db = client.database("document")try:table = db.describe_table("chunks")table.upsert(rows=rows) # 批量写入向量数据,一次最多支持写入1000条table.rebuild_index("vector_idx") # 创建向量索引,必要步骤
except Exception as e:  # 捕获所有类型的异常print(f"Error: {e}")  # 打印异常信息
client.close()

当打印到如下的数据证明你写入成功了。

image7.png

3.3.2        文档检索

1        基于标量的检索

import pymochow
from pymochow.configuration import Configuration
import config  # 导入配置文件config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
client = pymochow.MochowClient(config_obj)# 选择或创建数据库
db = client.database("document")try:table = db.describe_table("chunks")primary_key = {'id': 0}projections = ["id", "source", "author"]res = table.query(primary_key=primary_key, projections=projections, retrieve_vector=True)
except Exception as e:  # 捕获所有类型的异常print(f"Error: {e}")  # 打印异常信息print(res)
client.close()

结果显示如下:

image8.png

2        基于向量的检索

import os
import config
import pymochow
import qianfan
from pymochow.configuration import Configuration
from pymochow.model.table import AnnSearch, HNSWSearchParams# 初始化千帆AI平台的嵌入模型对象
emb = qianfan.Embedding()# 定义待查询的问题文本
question = "讲解下大模型的发展趋势"# 获取问题文本的嵌入向量
resp = emb.do(texts=[question])
question_embedding = resp['data'][0]['embedding']# 使用配置信息初始化向量数据库客户端
config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
client = pymochow.MochowClient(config_obj)# 选择数据库
db = client.database("document")try:# 获取指定表的描述信息table = db.describe_table("chunks")# 构建近似最近邻搜索对象anns = AnnSearch(vector_field="vector",  # 指定用于搜索的向量字段名vector_floats=question_embedding,  # 提供查询向量params=HNSWSearchParams(ef=200, limit=1)  # 设置HNSW算法参数和返回结果的限制数量)# 执行搜索操作res = table.search(anns=anns)# 打印搜索结果print(res)
except Exception as e:  # 捕获并打印所有异常信息print(f"Error: {e}")# 关闭客户端连接
client.close()

3        基于标量和向量的混合检索

import os
import config
import pymochow
import qianfan
from pymochow.configuration import Configuration
from pymochow.model.table import AnnSearch, HNSWSearchParams# 初始化千帆AI平台的嵌入模型对象
emb = qianfan.Embedding()# 定义待查询的问题文本
question = "讲解下大模型的发展趋势"# 获取问题文本的嵌入向量
resp = emb.do(texts=[question])
question_embedding = resp['data'][0]['embedding']# 使用配置信息初始化向量数据库客户端
config_obj = Configuration(credentials=config.credentials, endpoint=config.endpoint)
client = pymochow.MochowClient(config_obj)# 选择数据库
db = client.database("document")try:# 获取指定表的描述信息table = db.describe_table("chunks")# 构建近似最近邻搜索对象anns = AnnSearch(vector_field="vector",  # 指定用于搜索的向量字段名vector_floats=question_embedding,  # 提供查询向量params=HNSWSearchParams(ef=200, limit=1),  # 设置HNSW算法参数和返回结果的限制数量filter="author='CNKI'" # 提供标量的过来条件)# 执行搜索操作res = table.search(anns=anns)# 打印搜索结果print(res)
except Exception as e:  # 捕获并打印所有异常信息print(f"Error: {e}")# 关闭客户端连接
client.close()

当然后续还需要上下文融合和答案生成,可以基于百度文心大模型的能力实现,本文篇幅有限就不详细展开了。

原文链接:千帆+Langchain+VectorDB 建立简单的 RAG 示例 - 向量数据库 - 设计架构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/746001.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis 除了做缓存,还能做什么?

分布式锁:通过 Redis 来做分布式锁是一种比较常见的方式。通常情况下,我们都是基于 Redisson 来实现分布式锁。关于 Redis 实现分布式锁的详细介绍,可以看这篇文章:分布式锁详解open in new window 。限流:一般是通过 …

json-server 安装成功,查看版本直接报错。安装默认版本埋下的一个坑,和node版本不匹配

文章目录 一、作者的错误二、作者安装的过程三、版本问题的解决方式四、安装成功,显示命令不存在的解决思路五、安装失败的解决思路六、json-server运行命令参考文档 一、作者的错误 安装成功 错误原文 file:///C:/Users/ljj/AppData/Roaming/nvm/v14.18.1/node_g…

go语言基础笔记

1.基本类型 1.1. 基本类型 bool int: int8, int16, int32(rune), int64 uint: uint8(byte), uint16, uint32, uint64 float32, float64 string 复数:complex64, complex128 复数有实部和虚部,complex64的实部和虚部为32位,complex128的实部…

Vue首屏优化方案

在Vue项目中,引入到工程中的所有js、css文件,编译时都会被打包进vendor.js,浏览器在加载该文件之后才能开始显示首屏。若是引入的库众多,那么vendor.js文件体积将会相当的大,影响首屏的体验。可以看个例子:…

Unload-labs

function checkFile() {var file document.getElementsByName(upload_file)[0].value;if (file null || file "") {alert("请选择要上传的文件!");return false;}//定义允许上传的文件类型var allow_ext ".jpg|.png|.gif";//提取上传文件的类…

初见Dynamo2.13 for Revit2023~

Hello大家好!我是九哥~ 今天我们来聊聊Dynamo2.13 for Revit有哪些新功能(后台回复"Revit2013"获取)~ 首先,Dynamo2.13版本其实早就发布了,官方博客更是花了三篇文章的篇幅来详细介绍,小伙伴…

Hack The Box-Monitored

目录 信息收集 rustscan dirsearch WEB web信息收集 snmpwalk curl POST身份验证 漏洞探索 漏洞挖掘 sqlmap 登录后台 提权 get user get root 信息收集 rustscan ┌──(root㉿ru)-[~/kali/hackthebox] └─# rustscan -b 2250 10.10.11.248 --range0-65535 --…

今天我们来学习一下关于MySQL数据库

目录 前言: 1.MySQL定义: 1.1基础概念: 1.1.1数据库(Database): 1.1.2表(Table): 1.1.3记录(Record)与字段(Field): …

C#,入门教程(27)——应用程序(Application)的基础知识

上一篇: C#,入门教程(26)——数据的基本概念与使用方法https://blog.csdn.net/beijinghorn/article/details/124952589 一、什么是应用程序 Application? 应用程序是编程的结果。一般把代码经过编译(等)过程,最终形成的可执行 或 可再用 的文件称为应用程序。可执行文…

GaussDB数据库的索引管理

目录 一、引言 二、GaussDB数据库中的索引基本概念 1. 什么是GaussDB索引? 2. GaussDB索引的作用 三、GaussDB支持的索引类型 1. B-Tree索引 2. GIN索引 3. GiST索引 4. SP-GiST索引 四、创建和管理GaussDB索引 1. 创建索引 2. 删除索引 3. 索引的优化…

【AI论文阅读笔记】ResNet残差网络

论文地址:https://arxiv.org/abs/1512.03385 摘要 重新定义了网络的学习方式 让网络直接学习输入信息与输出信息的差异(即残差) 比赛第一名1 介绍 不同级别的特征可以通过网络堆叠的方式来进行丰富 梯度爆炸、梯度消失解决办法:1.网络参数的初始标准化…

RabbitMQ详解与常见问题解决方案

文章目录 什么是 RabbitMQ?RabbitMQ 和 AMQP 是什么关系?RabbitMQ 的核心组件有哪些?RabbitMQ 中有哪几种交换机类型?Direct Exchange(直连交换机)Topic Exchange(主题交换机)Headers Exchange(头部交换机)Fanout Exchange(广播交…

安装linux_centos7虚拟机_开启网络_ssh_防火墙

文章目录 安装linux_centos7虚拟机_开启网络_ssh_防火墙安装centos7虚拟机1. 进入VMware --> 点击文件 --> 新建虚拟机2. 选择典型 --> 选择下一步3. 选择--> 稍后安装操作系统4. 选择--> Linux --> CentOS 7 64位5. 在虚拟机名称输入(虚拟机名) --> 选择…

李三清研究引领力学定律新篇章,光子模型图揭秘

一周期内,垂直,曲率不变,方向转向互变,正向反向互变,左旋右旋互变。变无限粗或变无限厚才发生质变,且属于由内向外变换,所以对应变换就是由内点向外点变换。 由于方向转向不能分割,…

【Vue2】组件通信

父子通信 父 -> 子 子 -> 父 props 校验 props: {校验的属性名: {type: 类型, // Number String Boolean ...required: true, // 是否必填default: 默认值, // 默认值validator (value) {// 自定义校验逻辑return 是否通过校验}} },data 的数据是自己的 → 随便改pr…

浅浅探索Memcached

一、NoSQL介绍 NoSQL是对 Not Only SQL、非传统关系型数据库的统称。 NoSQL一词诞生于1998年,2009年这个词汇被再次提出指非关系型、分布式、不提供ACID的数据库设计模式。 随着互联网时代的到来,数据爆发式增长,数据库技术发展日新月异&a…

N沟道功率MOSFET--FDA59N30 助力提高电源效率 为设备节能做出贡献

FDA59N30 UniFETTM MOSFET 是高压 MOSFET产品,基于平面条形和 DMOS 技术。 该 MOSFET 产品专用于降低通态电阻,并提供更好的开关性能和更高的雪崩能量强度。适用于开关电源转换器应用,如功率因数校正(PFC)、平板显示器…

服务器集群 -- nginx配置tcp负载均衡

当面临高流量、高可用性、水平扩展、会话保持或跨地域流量分发等需求时,单台服务器受限于硬件资源、性能有限不能满足应用场景的并发需求量时,引入负载均衡器部署多个服务器共同处理客户端的并发请求,可以帮助优化系统架构,提高系…

Ubuntu——以桌面应用为主的Linux发行版操作系统

目录 一、Ubuntu简介 二、Ubuntu下载及安装 1.Swap分区的作用 2.语言环境 3.软件管理——apt 3.1配置文件 3.2软件源配置文件格式 3.3DPKG常用命令 三、常用命令总结 1. date——显示或设定系统的日期和与时间 2.cal——显示日历 3.设置时区 4.修改密码——passwd…