开源模型应用落地-工具使用篇-向量数据库(三)

一、前言

    通过学习"开源模型应用落地"系列文章,我们成功地建立了一个完整可实施的AI交付流程。现在,我们要引入向量数据库,作为我们AI服务的二级缓存。本文将详细介绍如何使用Milvus Lite来为我们的AI服务部署一个前置缓存。


二、术语

2.1、向量数据库

    向量数据库是一种专门用于存储和处理高维向量数据的数据库系统。与传统的关系型数据库或文档数据库不同,向量数据库的设计目标是高效地支持向量数据的索引和相似性搜索。

    在传统数据库中,数据通常是以结构化的表格形式存储,每个记录都有预定义的字段。但是,对于包含大量高维向量的数据,如图像、音频、文本等,传统的数据库模型往往无法有效地处理。向量数据库通过引入特定的数据结构和索引算法,允许高效地存储和查询向量数据。

    向量数据库的核心概念是向量索引。它使用一种称为向量空间模型的方法,将向量映射到多维空间中的点,并利用这种映射关系构建索引结构。这样,当需要搜索相似向量时,可以通过计算向量之间的距离或相似度来快速定位相似的向量。

2.2、向量数据库的使用场景

     向量数据库在许多领域中都有广泛的应用场景,特别是涉及到高维向量数据存储和相似性搜索的任务。以下是一些常见的使用场景:

  • 目标识别和图像搜索:向量数据库可用于存储图像特征向量,以支持快速的相似图像搜索和目标识别。它在图像搜索引擎、人脸识别和视频监控等领域具有重要作用。
  • 推荐系统:向量数据库可以存储用户和物品的特征向量,用于个性化推荐。基于相似性搜索,可以找到与用户兴趣相似的物品,提供个性化的推荐结果。
  • 自然语言处理:在文本处理任务中,可以使用向量数据库存储文本向量,如词向量、句向量等。基于相似性搜索,可以进行文本匹配、语义相似度计算等操作。
  • 数据聚类和分类:向量数据库可用于高维向量数据的聚类和分类分析。它可以帮助发现数据集中的聚类模式和类别,用于数据挖掘和机器学习任务。
  • 检索与推荐系统:在电子商务和商品搜索中,向量数据库可以存储商品特征向量,以支持相似商品的搜索和推荐。它可以提供更准确和个性化的搜索结果。
  • 医疗和生物信息学:向量数据库可用于存储基因表达向量、蛋白质特征向量等生物信息学数据。它可以在基因组学、药物研发等领域中帮助进行数据分析和研究。
  • 视频内容分析:向量数据库可用于存储视频特征向量,如视频帧特征、视频片段特征等。它可以用于视频内容搜索、视频剪辑和视频推荐等应用。

2.3、向量相似度检索

    相似度检索是指将目标对象与数据库中数据进行比对,并召回最相似的结果。同理,向量相似度检索返回的是最相似的向量数据。

2.4、向量相似度检索算法

  • 余弦相似度(Cosine Similarity):余弦相似度是一种常用的衡量向量相似性的方法。它通过计算两个向量之间的夹角余弦值来度量它们的相似程度。余弦相似度范围在[-1, 1]之间,值越接近1表示两个向量越相似。
  • 欧氏距离(Euclidean Distance):欧氏距离是计算向量之间距离的一种常见方法。它衡量了两个向量之间的几何距离,即两个向量之间的直线距离。欧氏距离越小表示两个向量越相似。
  • 曼哈顿距离(Manhattan Distance):曼哈顿距离是计算向量之间距离的一种度量方式。它衡量了两个向量之间的城市街区距离,即通过水平和垂直方向移动所需的步数之和。
  • Jaccard相似度(Jaccard Similarity):Jaccard相似度通常用于计算集合之间的相似性,但也可以应用于特征向量的相似性计算。它通过计算两个向量的交集与并集之间的比值来度量它们的相似程度。
  • 汉明距离(Hamming Distance):汉明距离通常用于计算两个等长字符串之间的距离,但也可应用于二进制向量的相似性计算。它衡量了两个向量之间在相应位置上不同位的数量。
  • 最近邻搜索算法(Nearest Neighbor Search):最近邻搜索算法通过计算向量之间的相似度或距离,找到与目标向量最相似的邻居向量。常用的最近邻搜索算法包括暴力搜索、KD树、球树、LSH(局部敏感哈希)等。

2.5、Milvus

    是一个开源的向量数据库引擎,专门用于存储和处理大规模高维向量数据。它提供了高效的向量索引和相似性搜索功能,使用户能够快速地进行向量数据的存储、查询和分析。

    Milvus的设计目标是为了满足现代应用中对大规模向量数据的需求,例如人脸识别、图像搜索、推荐系统等。它采用了向量空间模型和多种索引算法,包括倒排索引、近似最近邻(Approximate Nearest Neighbor,ANN)等,以支持高效的相似性搜索。

    Milvus提供了易于使用的编程接口和丰富的功能,使用户可以方便地插入、查询和分析向量数据。它支持多种数据类型的向量,包括浮点型、整型等,也支持多种距离度量方法,如欧氏距离、余弦相似度等。

    Milvus还提供了分布式部署和横向扩展的能力,可以在多台机器上构建高可用性和高性能的向量数据库集群。它支持数据的分片和负载均衡,可以处理大规模数据集和高并发查询。

2.6、Milvus Lite

    是Milvus向量数据库的一个轻量级版本。旨在提供在资源受限的环境中快速、高效地进行向量存储和相似性搜索的能力。

    与完整版的Milvus相比,它具有以下特点:

  • 轻量级:Milvus Lite具有较小的存储占用和内存消耗,适合在资源受限的设备上部署和运行。
  • 快速部署:Milvus Lite提供了简化的部署和配置过程,使其更易于在嵌入式设备和边缘服务器上进行部署和集成。
  • 高效的向量索引和搜索:尽管是轻量级版本,Milvus Lite仍然提供了高效的向量索引和相似性搜索功能,以支持快速的向量数据查询。
  • 离线模式:Milvus Lite支持在离线模式下进行向量索引和搜索,无需实时连接到远程服务器。

2.7、Attu

    是Milvus 的高效开源管理工具。 它具有直观的图形用户界面(GUI),使您可以轻松地与数据库进行交互。

2.8、归一化

    是一种数据处理技术,用于将不同尺度或范围的数据转换为统一的标准范围,通常是0到1之间或者是-1到1之间。它是数据预处理的常见步骤之一,旨在消除不同特征之间的尺度差异,以便更好地比较和分析数据。

2.9、标准化

    是一种数据处理技术,用于将数据转换为具有零均值和单位方差的标准分布。它是数据预处理的一种常见方法,旨在消除不同特征之间的尺度差异,使得数据更适合进行比较和分析。


三、使用方式

3.1、架构示意图

这里的Milvus Lite部署在内网,位于业务服务和AI服务的中间,作为AI服务的二级缓存(一级缓存为Redis),为AI服务减缓负载压力。

3.2、安装Milvus Lite

     1. 创建虚拟环境

         conda create --name milvus python=3.10

     2. 激活虚拟环境

        conda activate milvus

     3.  安装milvus包

        pip install milvus

3.3、编写Milvus Lite服务端代码

   此处将Milvus Lite作为 Python 模块启动

from milvus import default_serverdef start_server():default_server.start()def stop_server():default_server.stop()if __name__ == '__main__':with default_server:start_server()input("按下任意键继续...")

3.4、启动Milvus Lite服务

    python -u 上述代码的文件名

    

    启动完成后,会监听19530端口

3.5、安装Milvus客户端管理工具

    下载地址:Releases · zilliztech/attu · GitHub

3.6、登录Milvus Lite服务端

    注意根据实际情况调整IP和端口,默认端口为19530

登录进去,就能看到如下信息:

    

四、业务整合

业务数据需要提前初始化到向量数据库中

4.1、连接milvus服务端

# 1. 连接向量数据库 Milvus
def connect_db(host):logging.info("start connecting to Milvus")# Milvus Lite has already started, use default_server here.connections.connect(host=host, port=19530,user='root',password='123456',)logging.info("connected to Milvus")

4.2、创建集合

dim = 256
alias = 'default'
nlist = 65536# 2. 创建数据集合 collection
def create_collection(collection_name):isExist = has_collection(collection_name=collection_name, using=alias)if isExist:print(f'集合{collection_name}已经存在')returnfields = [FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),FieldSchema(name="keyword", dtype=DataType.FLOAT_VECTOR, dim=dim),FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=4096)]schema = CollectionSchema(fields, "the collection of tb_test")logging.info(f"Create collection {collection_name}")tb_test = Collection(collection_name, schema, consistency_level="Strong")return tb_test

PS:keyword的向量维度是256,高维向量可以提供更丰富的信息表示能力,能够捕捉更多的特征和关系,从而提高模型的表达能力。

创建成功后:

4.3、插入数据

# 3. 插入数据实体 entities
def insert_data(collection_name,narray,content,isNormalize = True):res = Nonetry:# 获得已存在集合对象collection = Collection(name=collection_name, using=alias)logging.info("Start inserting entities")if isNormalize == True:# 标准化处理normalize_narray = pretreatment(narray)print(normalize_narray)# 补齐向量长度padded_vector = narray_pad(normalize_narray, dim)print(padded_vector)else:# 补齐向量长度padded_vector = narray_pad(narray, dim)# 打印补齐后的向量logging.info(padded_vector.shape)entities = [padded_vector,  # title[content],  # content]res = collection.insert(entities)collection.flush()finally:return res# 插入数据
narray = np.array([100220.0,102247.0,31905.0,40814.0,101009.0, 87335.0,8863.0,20.0,15.0,15.0,104745.0,100354.0,43815.0,103010.0,102233.0,100351.0,102482.0])
content = "标题:青春之光青春是一首歌,悠扬而激昂;青春是一幅画,斑斓而生动;青春是一部电影,感人至深。而在我心中,青春更是那个在奥运赛场上奔跑的刘翔。记得那是2004年的雅典奥运会,刘翔以12.91秒的成绩打破了世界纪录,成为中国田径历史上第一位获得奥运金牌的运动员。那一刻,我被他的坚韧和毅力深深打动,也深深地感受到了青春的力量。刘翔的青春,充满了挑战和奋斗。他曾经因为伤病困扰,一度想要放弃,但他没有。他知道,只有坚持下去,才能实现自己的梦想。于是,他在痛苦中挣扎,用汗水和泪水浇灌着自己的青春。终于,他成功了,他站在了奥运的最高领奖台上,成为了全中国的骄傲。刘翔的青春,充满了激情和活力。他是中国田径的一颗璀璨明星,他的每一次起跑都充满力量,他的每一次跨栏都充满速度。他的青春,就像一道闪电,照亮了整个赛场,也照亮了我们的心灵。刘翔的青春,充满了希望和梦想。他的梦想是成为最好的自己,他的希望是为中国赢得更多的荣誉。他的青春,就像一盏明灯,指引着他前进的方向,也激励着我们去追求自己的梦想。青春,就是要有梦想,有希望,有勇气去追逐。刘翔的青春,就是这样,充满了梦想、希望和勇气。他的青春,是我们所有人的青春,是我们所有人追求梦想的动力。青春,是一场无悔的旅程,无论前方有多少困难和挫折,只要我们有梦想,有希望,有勇气,就一定能够到达我们的目的地。让我们一起,像刘翔一样,用自己的青春,去创造属于我们自己的辉煌!"
# 调用方法
insert_data(collection_name,narray,content,True)

插入成功后:

PS:受限于本篇内容较长,如何获取文本向量以及如何进行标准化或归一化处理,将在另外的文章中说明

4.4、创建索引

# 4. 创建索引 index
def create_index(collection_name,index_column,index_name):try:collection = Collection(name=collection_name, using=alias)# 给向量字段构建索引,并指定索引类型,以及相似度度量方式# nlist 表示簇的个数,该参数可以将向量划分成多个区域,有利于加快搜索index_params = {"metric_type": "IP","index_type": "IVF_FLAT","params": {"nlist": nlist}}collection.create_index(field_name=index_column, index_name=index_name, index_params=index_params)finally:if collection:collection.release()#  创建索引 index
collection_name = "tb_test"
index_column='keyword'
index_name='idx_keyword'
# 调用
create_index(collection_name, index_column, index_name)

创建成功后:

4.5、加载数据至缓存

def load_in_memory(collection_name):collection = Collection(name=collection_name, using=alias)# 将整个 collection 加载到内存中,也可以只加载某个 Partitioncollection.load()return collection# 加载集合到缓存
collection_name = "tb_test"
# 调用
load_in_memory(collection_name)


五、附带说明

5.1、目前市面上成熟的向量数据库产品有很多,结合实际效果,这里选择Milvus作为项目解决方案。

5.2、其他Milvus Lite启动方式

    # 通过 CLI 来启动 Milvus Lite,执行命令:milvus-server

    # 通过 CLI 以调试模式来启动 Milvus Lite,执行命令:milvus-server  --debug

5.3、milvus_cli管理工具

    # 安装

      pip install milvus-cli

   # 登录

     milvus_cli

   # 连接数据库

     connect -uri http://127.0.0.1:19530

5.4、milvus_cli常用命令

创建数据库create database -db test使用数据库use database -db test查看数据库list databases 删除数据库delete database -db test创建collectioncreate collection -c car -f id:INT64:primary_field -f vector:FLOAT_VECTOR:128 -f color:INT64:color-f brand:INT64:brand -p id -a-level StrongOptions:-c, --collection-name TEXT      	Collection name to specify alias.-p, --schema-primary-field TEXT	Primary field name.-a, --schema-auto-id            	[Optional, Flag] - Enable auto id.-desc, --schema-description TEXT	[Optional] - Description details.-d, --is-dynamic TEXT           	[Optional] - Collection schema supportsdynamic fields or not.-level, --consistency-level TEXT 	[Optional] - Consistency level:Bounded,Session,Strong, Eventual .-f, --schema-field TEXT         	[Multiple] - FieldSchema. Usage is "<Name>:<DataType>:<Dim(if vector) or Description>"-s, --shards-num INTEGER        	[Optional] - Shards number查看collectionlist collections删除collectiondelete collection -c tb_test创建indexcreate indexCollection name (tb_test): tb_testThe name of the field to create an index for (vector): vectorIndex name: vectorIndexDefault is ''Index type (FLAT, IVF_FLAT, IVF_SQ8, IVF_PQ, RNSG, HNSW, ANNOY, AUTOINDEX, DISKANN, ) []:  IVF_FLAT  Default is ''Index metric type (L2, IP, HAMMING, TANIMOTO,): L2Index params nlist: 2查看indexlist indexes -c tb_test查看partitionslist partitions -c tb_test删除partitionsdelete partition -c tb_test -p new_partition删除entitiesdelete entities -c tb_test加载load collection -c tb_testOptions:-c, --collection TEXT  The name of collection to load.-p, --partition TEXT   [Optional, Multiple] - The name of partition to load.--help                 Show this message and exit.释放release collection -c tb_testOptions:-c, --collection TEXT  The name of collection to load.-p, --partition TEXT   [Optional, Multiple] - The name of partition to load.--help  showshow collection -c tb_testshow index -c tb_testshow index_progress -c tb_testshow loading_progress -c tb_testshow partition -c tb_test创建别名create alias -c tb_test -A -a tb_test11Options:-c, --collection-name TEXT  Collection name to be specified alias.-a, --alias-name TEXT       The alias of the collection.-A, --alter                 [Optional, Flag] - Change an existing alias tocurrent collection.创建用户create user -u root -p 123456-u, --username TEXT  The username of milvus user.-p, --password TEXT  The password of milvus user.查看用户list users查看版本version

5.5、高维向量表示的优劣

优势:

  • 表示能力增强:高维向量可以提供更丰富的信息表示能力,能够捕捉更多的特征和关系,从而提高模型的表达能力。
  • 解决冗余信息:在高维空间中,冗余特征可能会被稀疏化,使得模型更容易识别和利用有效的特征。
  • 处理复杂问题:某些复杂问题可能需要更高维度的向量来表示,以便更好地捕捉问题的复杂性和多样性。

劣势

  • 维度灾难:高维度数据可能导致维度灾难问题,即数据稀疏性增加,对于有限的训练数据而言,模型的泛化能力可能会受到影响。
  • 计算复杂性增加:高维度数据需要更多的计算资源和时间来处理和分析,可能会增加计算的复杂性和开销。
  • 数据稀疏性:在高维空间中,数据点之间的距离变得更远,可能会导致数据稀疏性增加,从而影响模型的准确性和可靠性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/694242.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

曝光一下不发年终奖的企业

原文连接&#xff1a; 曝光一下不发年终奖的企业 今日热帖&#xff0c;看到网上发布的一篇帖子&#xff1a;请曝光一下不发年终奖的企业&#xff01; 结果留言上百条&#xff0c;除了私企&#xff0c;还有很多国企&#xff0c;银行等。而且还有一些我们认为应该很赚钱的企业&a…

opengl 学习着色器

一.GLSL 着色器是使用一种叫GLSL的类C语言写成的。GLSL着色器编码顺序&#xff1a;声明版本》定义输入输出》uniform》main函数。每个着色器的入口点是main函数&#xff0c;在main函数中我们处理所有的输入变量&#xff0c;并将结果输出到输出变量中。如下图&#xff1a; #ver…

CVE-2024-24565 CrateDB数据库任意文件读取漏洞

目录 前言 简介 ​编辑 环境搭建 漏洞复现 前言 本次介绍的漏洞不同与以往&#xff0c; 本次洞更多是适用于利用数据库提权。 利用数据库的导入导出数据的功能&#xff0c;我们往往可以将内部的一些敏感文件如/etc/passwd导入到数据库进行查看。也可以将数据导入到一些特…

命令执行讲解和函数

命令执行漏洞简介 命令执行漏洞产生原因 应用未对用户输入做严格得检查过滤&#xff0c;导致用户输入得参数被当成命令来执行 命令执行漏洞的危害 1.继承Web服务程序的权限去执行系统命会或读写文件 2.反弹shell&#xff0c;获得目标服务器的权限 3.进一步内网渗透 远程代…

泛微e-office系统存在敏感信息泄露 附POC软件

免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该文章仅供学习用途使用。 1. 泛微e-office系统简介 微信公众号搜索:南风漏洞复…

mysql 锁详解

目录 前言 一、全局锁 二、表级锁 三、行锁 前言 为什么要设计锁&#xff0c;锁设计初衷是为了解决多线程下并发问题。出现并发的时候用锁进行数据同步&#xff0c;避免因并发造成了数据错误(数据覆盖)。可见锁的重要性&#xff0c;并不是所有的数据库都有锁。比如Redis&a…

什么是CODESYS开发系统

CODESYS是一种用于工业自动化领域的开发系统软件&#xff0c;提供了一个完整集成的开发环境。该软件由德国CODESYS GmbH&#xff08;原 3S-Smart Software Solutions GmbH&#xff09;公司开发&#xff0c;其最新版本为CODESYS V3。 CODESYS开发系统具有多种特性和优点。首先&a…

⭐北邮复试刷题105. 从前序与中序遍历序列构造二叉树__递归分治 (力扣每日一题)

105. 从前序与中序遍历序列构造二叉树 给定两个整数数组 preorder 和 inorder &#xff0c;其中 preorder 是二叉树的先序遍历&#xff0c; inorder 是同一棵树的中序遍历&#xff0c;请构造二叉树并返回其根节点。 示例 1: 输入: preorder [3,9,20,15,7], inorder [9,3,15,…

Rocky 8.9 Kubespray v2.24.0 在线部署 kubernetes v1.28.6 集群

文章目录 1. 简介2. 预备条件3. 基础配置3.1 配置hostname3.2 配置互信 4. 配置部署环境4.1 在线安装docker4.2 启动容器 kubespray4.3 编写 inventory.ini4.4 关闭防火墙、swap、selinux4.5 配置内核模块 5. 部署6. 集群检查 1. 简介 kubespray​ 是一个用于部署和管理 Kuber…

CF1468J Road Reform 题解

CF1468J Road Reform 题解 link CF1468J Road Reform 题面翻译 给定一个有 n n n 个节点&#xff0c; m m m 条无向带权边的图&#xff0c;和一个参数 k k k&#xff0c;第 i i i 条边权值为 s i s_i si​。 现在你要保留这个图中的 n − 1 n-1 n−1 条边使得这个图变…

java导出动态下拉框excel模板

1.原始模板 2.导出模板,下拉框为数据库中得到动态数据 public void downloadTemplate(HttpServletResponse response) throws IOException {// 所有部门List<String, String> departments expertManageMapper.selectAllDepartment();//所有职位List<String, String&g…

基于Java (spring-boot)的社区物业管理系统

一、项目介绍 本系统共分为两个角色&#xff1a;管理员和业主。 主要功能有&#xff0c;核心业务处理&#xff0c;基础信息管理&#xff0c;数据统计分析 核心业务处理&#xff1a;车位收费管理&#xff0c;物业收费管理&#xff0c;投诉信息管理&#xff0c;保修信息管理。 …

C++从入门到精通 第十四章(STL容器)【下】

七、list容器 1、list的基本概念 &#xff08;1&#xff09;list的功能是将数据进行链式存储&#xff0c;对应数据结构中的链表&#xff0c;链表是一种物理存储单元上非连续的存储结构&#xff0c;数据元素的逻辑顺序是通过链表中的指针链接实现的。 &#xff08;2&#xff…

《VitePress 简易速速上手小册》第2章:Markdown 与页面创建(2024 最新版)

文章目录 2.1 Markdown 基础及扩展2.1.1 基础知识点解析2.1.2 重点案例&#xff1a;技术博客2.1.3 拓展案例 1&#xff1a;食谱分享2.1.4 拓展案例 2&#xff1a;个人旅行日记 2.2 页面结构与布局设计2.2.1 基础知识点解析2.2.2 重点案例&#xff1a;公司官网2.2.3 拓展案例 1&…

jwt+redis实现登录认证

项目环境&#xff1a;spring boot项目 pom.xml引入jwt和redis <!-- jwt --><dependency><groupId>com.auth0</groupId><artifactId>java-jwt</artifactId><version>4.3.0</version></dependency><!-- redis坐标-->…

数据结构与算法:队列

在上篇文章讲解了栈之后&#xff0c;本篇也对这一章进行收尾&#xff0c;来到队列&#xff01; 队列 队列的介绍队列的存储结构队列顺序存储的不足之处 循环队列的定义队列的链式存储结构链队列的构建链队列的初始化队尾入队队头出队获取队头队尾元素判断队列是否为空获取队列元…

【Java前端技术栈】模块化编程

一、基本介绍 1.基本介绍 1 传统非模块化开发有如下的缺点&#xff1a;(1)命名冲突 (2)文件依赖 2 Javascript 代码越来越庞大&#xff0c;Javascript 引入模块化编程&#xff0c;开发者只需要实现核心的业务逻辑&#xff0c;其他都可以加载别人已经写好的模块 3 Javascrip…

torch.utils.data

整体架构 平时使用 pytorch 加载数据时大概是这样的&#xff1a; import numpy as np from torch.utils.data import Dataset, DataLoaderclass ExampleDataset(Dataset):def __init__(self):self.data [1, 2, 3, 4, 5]def __getitem__(self, idx):return self.data[idx]def…

网络入门基础

本专栏内容为&#xff1a;Linux学习专栏&#xff0c;分为系统和网络两部分。 通过本专栏的深入学习&#xff0c;你可以了解并掌握Linux。 &#x1f493;博主csdn个人主页&#xff1a;小小unicorn ⏩专栏分类&#xff1a;网络 &#x1f69a;代码仓库&#xff1a;小小unicorn的代…

32FLASH闪存

目录 一&#xff0e;FLASH简介 二&#xff0e;代码实现 &#xff08;1&#xff09;读写内部FLASH &#xff08;2&#xff09;读取芯片ID 一&#xff0e;FLASH简介 存储器地址要记得累 系统存储器是原厂写入的Bootloader程序&#xff08;用于串口下载&#xff09;&#xff0…