基于Langchain+向量数据库+ChatGPT构建企业级知识库

▼最近直播超级多,预约保你有收获

近期直播:基于 LLM 大模型的向量数据库企业级应用实践

 1

LangChain 是什么?

众所周知 OpenAI 的 API 无法联网的,所以如果只使用自己的功能实现联网搜索并给出回答、总结 PDF 文档、基于某个 Youtube 视频进行问答等等的功能肯定是无法实现的。

数据感知:将 LLM 模型链接到不同的数据源,比如:ChatGPT 访问 PDF 等;

代理:允许与 LLM 模型进行交互。

第一、支持 LLM 调用

    • 支持多种模型接口调用:OpenAI、Hugging Face、AzureOpenAI ...

    • 支持多种方式实现缓存记录:In-Mem(内存)、SQLite、Redis、SQL ...

    • 支持流模式(类型打字机的效果)

第二、支持 Prompt 管理

    • 支持多种自定义模板

第三、支持索引

    • 支持文档切割

    • 支持 token 向量化

    • 支持向量数据库

第四、支持 Chain(链)

    • 链允许我们将多个组件组合在一起,以创建一个单一的、连贯的应用程序。比如:我们可以创建一个链,该链接受用户输入,使用提示模板对其进行格式化,然后将格式化的响应传递给 LLM。

第五、文档加载器(Document Loader)

     顾名思义,这个就是从指定源进行加载数据的, 比如:

    • 文件夹 DirectoryLoader

    • Azure 存储 AzureBlobStorageContainerLoader

    • CSV文件 CSVLoader

    • 印象笔记 EverNoteLoader

    • Google网盘 GoogleDriveLoader

    • 任意的网页 UnstructuredHTMLLoader

    • PDF PyPDFLoader

    • S3 S3DirectoryLoader/S3FileLoader

    • Youtube YoutubeLoader 等官方文档地址:https://python.langchain.com/en/latest/modules/indexes/document_loaders.html

    • 代码实践如下:

d0110a79a9d130eb408ab3bfadae8c35.png

 2 

文本切割(Text Splitters)

当您想要处理长文本时,有必要将该文本拆分为块。听起来很简单,但这里有很多潜在的复杂性。在理想情况下,我们希望将语义相关的文本片段放在一起。“语义相关”的含义可能取决于文本的类型。文本切割器的工作方式:

    • 将文本拆分为语义有意义的小块(通常是句子)

    • 开始将这些小块组合成一个较大的块,直到达到一定的大小(由某个函数测量)

    • 达到一定大小后,将该块设置为自己的文本段,然后开始创建一个具有一些重叠的新文本块(以保持块之间的上下文)

默认推荐的文本拆分器是 RecursiveCharacterTextSplitter。此文本拆分器采用字符列表。它尝试基于第一个字符的拆分来创建块,但如果任何块太大,它就会移动到下一个字符,依此类推。默认情况下,它尝试拆分的字符为 ["\n\n", "\n", " ", ""]。

文本切割代码如下:

be7dc4be16c3b7f97efe4fc7f5fb10e6.png

3 

向量化(向量数据库)

第一、为什么 LLM 需要将文本内容向量化

计算机最擅长处理的就是数字,因此我们需要将文本(如单词或者句子)转化为数字,或者更具体地说,转化为向量。向量是一种数学对象,可以看作是一个有序的数字列表。这种将文本转化为向量的过程就叫做向量化。

第二、什么是欧式距离

把它想象成在多维空间中两点之间的直线距离。比如在二维空间(也就是平面)上,两点之间的欧氏距离就是我们平时说的直线距离。在三维空间中,也就是我们生活的物理世界中,两点之间的欧氏距离就是我们通常意义上的空间直线距离。这个概念可以扩展到更高的维度。

第三、欧式距离在文本分析中的作用

在文本分析中,欧氏距离常常被用来衡量两段文本(或者说,两个向量)的相似度。如果两个向量之间的欧氏距离小,那么这两段文本就被认为是相似的;反之,如果欧氏距离大,那么这两段文本就被认为是不相似的。

第四、向量数据库

顾名思义,专门设计用于高效存储和检索向量数据,向量数据库检索主要基于向量之间的距离或相似度。常用向量数据库有:

    • Chroma(开源本地文件向量数据库)

    • Milvus(开源分布式高性能数据库)

    • Pinecone(商业化分布式高性能数据库)

代码实践如下:

a0c437317185a5366410860a72c3a570.png

 4 

链(Chain)

可以把 Chain 理解为任务。一个 Chain 就是一个任务,当然也可以像链条一样,一个一个的执行多个链,常用 Chain 如下:

    • LLMChain(适用于各种 LLM 链)

    • load_qa_chain( QA 问答)

    • ConversationalRetrievalChain(使用聊天记录在文档上进行聊天)

 5

免费超干货 LLM 大模型直播

为了帮助同学们掌握好 LLM 大模型的向量数据库企业级应用实战,明晚8点,我和陈东老师会开一场直播和同学们深度聊聊大模型的向量化、向量数据库的应用实战请同学点击下方按钮预约直播,咱们明晚8点不见不散哦~~

近期直播:基于 LLM 大模型的向量数据库企业级应用实践

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/126905.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

主从复制(gtid方式)

基于事务的Replication,就是利用GTID来实现的复制 GTID(全局事务标示符)最初由google实现,在MySQL 5.6中引入.GTID在事务提交时生成,由UUID和事务ID组成.uuid会在第一次启动MySQL时生成,保存在数据目录下的…

SQL 语句快速参考

SQL 语句语法AND / ORSELECT column_name(s) FROM table_name WHERE condition AND|OR conditionALTER TABLEALTER TABLE table_name ADD column_name datatype or ALTER TABLE table_name DROP COLUMN column_name AS (alias)SELECT column_name AS column_alias FROM table_n…

Java对接数据万象API实现视频查重、视频相似度校验处理

使用依赖 <dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.13</version></dependency><dependency><groupId>cn.hutool</groupId><artifact…

一台服务器安装两个mysql、重置数据库用于测试使用

文章目录 一、切数据库数据存储文件夹已经存在数据库数据文件夹新建数据库数据文件夹 二、安装第二个mysql安装新数据库初始化数据库数据启动数据库关闭数据库 三、mysqld_multi单机多实例部署参考文档 一、切数据库数据存储文件夹 这个方法可以让你不用安装新的数据库&#x…

kubernetes存储-configmap

一、字面值创建 二、通过文件创建 三、通过目录创建 四、通过yaml文件创建 五、使用configmap设置环境变量 六、使用conigmap设置命令行参数 七、通过数据卷使用configmap 八、configmap热更新

10.30寄存器,寄存器堆

寄存器 8位环形移位寄存器 module shift_regist (input wire clk,input wire rstn,input wire [7:0]D,output reg [7:0]Q ); always (posedge clk or negedge rstn) beginif(!rstn)Q<8b000000;elseQ<{D[6:0],D[7]} ; end endmodule //shift_regist 输入有时钟…

Springboot引入mybatis-plus及操作mysql的json字段

springboot引入mybatis-plus&#xff0c;创建springboot项目省略 pom文件 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.4.3.4</version></dependency> <!…

【Verilog 教程】7.3 Verilog 串行 FIR 滤波器设计

串行 FIR 滤波器设计 设计说明 设计参数不变&#xff0c;与并行 FIR 滤波器参数一致。即&#xff0c;输入频率为 7.5 MHz 和 250 KHz 的正弦波混合信号&#xff0c;经过 FIR 滤波器后&#xff0c;高频信号 7.5MHz 被滤除&#xff0c;只保留 250KMHz 的信号。 输入频率&#x…

关于构建springboot2.x出现报错镜像找不到springboot包的问题

报错原因 今天第一次学习springboot出现了报错&#xff0c;在2023.10.31构建springboot时springboot2只能够选择2.7.17版本&#xff0c;在JDK选择了与之匹配的1.8以后仍旧出现报错org.springframework.boot:spring-boot-starter-parent:pom:2.7.17.RELEASE was not found in h…

【Linux】安装使用Nginx负载均衡,并且部署前端项目

目录 一、Nginx概述 1. 什么 2. 背景 3. 作用 二、Nginx负载均衡 1. 讲述 2. 使用 1. 下载 2. 安装 3. 负载均衡 三、前端部署 1. 准备 2. 部署 一、Nginx概述 1. 什么 Nginx是一个高性能的开源Web服务器和反向代理服务器。它具有轻量级、高并发、低内存消耗的…

Jupyter Notebook的安装方法以及生成ipykernel

1. 安装Python和pip Jupyter Notebook是基于Python的&#xff0c;因此首先需要在电脑上安装Python和pip。可以通过访问Python官网(Welcome to Python.org)下载安装包进行安装。在安装Python的过程中&#xff0c;会提示是否安装pip&#xff0c;选择安装即可。 2. 安装Jupyter …

一文深入了解 CPU 的型号、代际架构与微架构

在 10 月 16 号的时候&#xff0c;Intel 正式发布了第 14 代的酷睿处理器。但还有很多同学看不懂这种发布会上发布的各种 CPU 参数。借着这个时机&#xff0c;给大家深入地讲讲 CPU 的型号规则、代际架构与微架构方面的知识。 CPU 在整个计算机硬件中、技术体系中都算是最最重…

18.自监督视觉`transformer`模型DINO

文章目录 自监督视觉`transformer`模型DINO总体介绍DINO中使用的SSL和KD方法multicrop strategy损失函数定义`teacher`输出的中心化与锐化模型总体结构及应用reference欢迎访问个人网络日志🌹🌹知行空间🌹🌹 自监督视觉transformer模型DINO 总体介绍 论文:1.Emerging …

京东协议算法最新版

环境准备 1 com.jingdong.app.mall11.6.4 入口定位 逆向分析&#xff0c;发现 params 里面有一个 sign 以及请求头里面有一个 jdgs 首先我们发现京东的 sign 是 32 位的&#xff0c;猜测其可能是 md5 之类的 hash 算法&#xff0c;既然是 hash 算法&#xff0c;那么就大概率…

Test-Agent----基于Centos7系统部署Test-Agent

【Test-Agent----基于Centos7系统部署Test-Agent】 一、部署 Test-Agent 1.1 环境准备 环境基本信息&#xff1a;Centos7.9操作系统&#xff0c;16核64G1T硬盘&#xff0c;Python3.9.7 1.2 部署 Test-Agent &#xff08;1&#xff09;安装git-lfs cd /opt curl -s https:…

LuatOS-SOC接口文档(air780E)--mobile - 蜂窝网络

示例 -- 简单演示log.info("imei", mobile.imei()) log.info("imsi", mobile.imsi()) local sn mobile.sn() if sn thenlog.info("sn", sn:toHex()) end log.info("muid", mobile.muid()) log.info("iccid", mobile.icc…

ORANGE室内高尔夫—韩国室内模拟高尔夫原装进口真实体验身临其境

ORANGE室内高尔夫—韩国室内模拟高尔夫 真实体验 身临其境 室内高尔夫的产品优势&#xff1a; 1. 实际高尔夫球场的限制&#xff1a;室内高尔夫可以弥补室外高尔夫球场数量有限的问题&#xff0c;使得更多人能够享受高尔夫运动。 2. 天气和季节的限制&#xff1a;室内高尔夫可…

centos7 部署 Flink

1. 准备 安装的前提是虚拟机里已安装了jdk 去官网下载 Flink 所有版本下载地址&#xff1a;https://archive.apache.org/dist/flink/ 找到下图的安装包&#xff0c;下载即可 下载完后&#xff0c;将其上传至虚拟机的某个地方&#xff0c;本人将其放在 /home/flink/ 下 解压…

【Apache Flink】Flink DataStream API的基本使用

Flink DataStream API的基本使用 文章目录 前言1. 基本使用方法2. 核心示例代码3. 完成工程代码pom.xmlWordCountExample测试验证 4. Stream 执行环境5. 参考文档 前言 Flink DataStream API主要用于处理无界和有界数据流 。 无界数据流是一个持续生成数据的数据源&#xff0…

基于MFC的串口通信(Mscomm)

1、串口通信的概述&#xff1a; 串口是一种重要的通信资源&#xff0c;例如鼠标口、USB接口都是串口。串行端口是CPU和串行设备间的编码转换器。当数据从CPU经过端口发送出去的时候&#xff0c;字节数据会被转为串行的位&#xff0c;在接收数据时&#xff0c;串行的位被转换为…