云原生向量计算引擎 PieCloudVector:为大模型提供独特记忆

拓数派大模型数据计算系统(PieDataComputingSystem,缩写:πDataCS)在10月24日程序员节「大模型数据计算系统」2023拓数派年度技术论坛正式发布。πDataCS 以云原生技术重构数据存储和计算,「一份存储,多引擎数据计算」,让 AI 模型更大更快,全面升级大数据系统至大模型时代。除云原生虚拟数仓 PieCloudDB,πDataCS 支持的第二款计算引擎:云原生向量计算引擎 PieCloudVector 也正式发布。PieCloudVector 支持海量向量数据存储、向量数据高效查询,助力多模态大模型 AI 应用。

AI 将引领下一波全球 GDP 的增长。根据麦肯锡2023年6月报告,生成式 AI(基于大模型)每年会为全球 GDP 贡献约2.6至4.4万亿美元,相当于英国2021年 GDP 总值(3.1万亿美元)。高盛也在其2023年4月报告中指出,生成式 AI 可以为全球 GDP 贡献7%的增长。大模型的迅速崛起让生成式 AI 基于大模型的应用也在不断创新,而应用对大规模向量数据的处理、相似性搜索等需求的增加,也促进了向量数据库的进一步发展。

拓数派自研的向量云原生计算引擎 PieCloudVector,作为 πDataCS 第二款计算引擎,是大模型时代的分析型数据库升维,目标是助力多模态大模型 AI 应用,进一步实现海量向量数据存储与高效查询。 PieCloudVector 支持和配合大模型的 Embeddings,帮助基础模型在场景 AI 的快速适配和二次开发。

1 大模型与向量

随着数据的爆炸式增长和计算能力的提升,大模型成为了处理复杂问题和分析海量数据的重要工具。大模型指的是拥有庞大参数规模、高复杂度和强大学习能力的机器学习模型。 这些模型通常由数百万甚至数十亿个参数组成,通过对大规模数据进行训练来获取知识和推理能力。大模型的出现使得在各种领域中的任务,如自然语言处理、图像识别、语音识别和推荐系统等取得了显著的突破。

在这里插入图片描述

特征的向量化表示

在数学和计算机科学中,向量是具有大小和方向的量。向量用一组浮点数表示一组“特征”,这个特征是从真实物体(猫、花等)的二进制表示(文本、图片、音频、视频等)中提取出来的(如上图所示),一般由大模型提取。通过将真实物体转化为向量表示,可以在向量空间中进行计算和比较,例如计算相似度、聚类分析、分类任务等。向量表示也为构建推荐系统、情感分析、信息检索等任务提供了基础。

2 什么是向量数据库

向量数据库是一种专门用于存储和管理向量数据的数据库系统,可以对向量提供高效的存储、索引和查询功能。

在这里插入图片描述

计算向量的余弦相似度

在向量搜索中,可以使用不同的距离度量(如欧式距离、余弦相似度、曼哈顿距离等)来计算两个向量之间的距离。距离越近表示这两个向量越相似。如下图,“派派”与“树獭”的距离度量则可通过余弦相似度来计算,来判断其相似程度。

传统数据库更擅长精确匹配,在浮点数的存储和处理能力都较为欠缺,无法高效地处理向量数据。为了能够高效存储和查询向量数据,向量数据库应运而生。

向量数据库能够满足存储和处理向量数据的特定需求,能够高效的将存储向量和原始实体(文字/图像/语音),并将它们关联起来。从而得以提供高效的相似度搜索、大规模数据管理、复杂向量计算和实时推荐等功能,帮助用户更好地利用和分析向量数据,助力大模型应用。

拓数派认为,一款优秀的向量数据库除了应当具备高效的向量存储和相似性搜索功能,还需满足事务的 ACID 保证和用户权限控制, 在确保对向量数据的插入、更新和删除操作能够正确执行,保证并发访问时数据的一致性的同时,为用户提供稳定、可靠且安全的服务,适用于各种数据管理和应用场景。这也是 PieCloudVector 的设计思路。

3 云原生向量计算引擎 PieCloudVector

拓数派团队在对比了 pgvector,pgembedding 等多种开源实现和性能后,并没有选择这类开源实现方式,而是完全独立自研了 PieCloudVector 以使其满足用户的使用场景。PieCloudVector 具备高效存储和检索向量数据、相似性搜索、向量索引、向量聚类和分类、高性能并行计算、强大可扩展性和容错性等特性。

3.1 PieCloudVector 架构

在架构的设计上,拓数派团队利用其在打造 πDataCS 的第一款计算引擎云原生虚拟数仓 PieCloudDB 时,在 eMPP(elastic MPP)与分布式架构领域积累的经验与优势,打造了向量计算引擎 PieCloudVector 的 eMPP 分布式架构。如下图所示,PieCloudVector 每个 Executor 对应一个 PieCloudVector 实例,从而实现高性能、可伸缩性和可靠性的向量存储和相似性搜索服务。而被转化的向量表示将被存储在 πDataCS 统一的存储引擎「简墨」中。

在这里插入图片描述

PieCloudVector 的 eMPP 分布式架构

用户只需一个客户端即可使用任何语言进行相似搜索。有了 PieCloudVector 的帮助,用户不仅可以存储、管理原始数据所对应的向量,也可调用 PieCloudVector 相关工具进行模糊搜索,与全局搜索相比牺牲部分精度实现毫秒级搜索,进一步提升查询效率。

3.2 PieCloudVector 功能

PieCloudVector 可以提供精确搜索和模糊搜索两种搜索模式。 目前,PieCloudVector 为用户提供以下功能:

  • 支持近似向量搜索 KNN-ANN
  • 支持主流的 ANN 算法,如 IVFFlat 和 HNSW 等
  • 支持向量压缩(PQ)
  • 并行+分布式
  • SIMD/GPU 加速
  • 支持 Langchain 框架

接下来,我们将对其中前两个功能进行详细介绍:

3.2.1 近似搜索 KNN-ANN

K-Nearest Neighbor(K 最近邻,KNN)是向量搜索的基本问题之一。该问题在已有的 N 个向量中找出与给定向量距离最近的 K 个向量。通过 K 最近邻算法,可以实现像相似图片检索、相关新闻推荐、用户画像匹配等应用。它允许根据向量之间的距离或相似度快速找到与给定向量最相似的向量,从而提供了高效的相似性搜索和推荐服务。

但随着数据量的逐渐增大,精确查询需要将输入的向量与每一条记录进行比对,计算成本将成倍增长。为了解决这个问题,PieCloudDB 建立向量索引来提前获取数据间的大致关系,加速查询效率。PieCloudVector 引入Approximate Nearest Neighbor(近似最近邻,ANN)算法来建立向量索引。通过 ANN,PieCloudVector 能够节省全局搜索的时间,牺牲部分精度以加速查询速度,进一步提升查询效率,实现毫秒级查询速度,做到模糊查询。

PieCloudVector 在建立向量索引时提供多种 ANN 算法, 包括最为流行的 IVFFlat(Inverted File with Flat)算法 HNSW(Hierarchical Navigable Small World)算法,用户可根据数据的特性来选择:

  • IVFFlat 算法(左图): 基于倒排文件的向量索引算法。它将向量数据提前进行分组,并为每个组建立一个倒排索引。在模糊查询时,IVFFlat 算法会检索与目标向量相近的组中包含的数据,从而加快搜索速度并降低内存消耗。然而,由于使用了分组,IVFFlat 算法的精确度一般相对较低。
  • HNSW 算法(右图): 基于层级导航的向量索引算法。它通过在数据之间建立“关系网”来构建索引结构。这个过程需要耗费一定的时间和内存资源。但是,HNSW 算法的精确度通常优于 IVFFlat 算法。它能够更好地捕捉数据之间的局部结构和相似性,并支持高效的近似搜索。

在这里插入图片描述

3.2.2 向量压缩

向量相似性搜索在处理大规模数据时需要大量的内存来支撑。例如,对于包含1百万个稠密向量的索引来说,通常需要几 GB 的内存来存储。高维数据使内存使用问题更加严重,因为随着维度的增加,向量表示空间变得极其庞大,需要更多的内存来存储。

为了解决这个内存压力问题,向量压缩(Product Quantization,PQ)是一种常见方法。 它能够将高维向量压缩,从而显著减少内存的占用。通过将每个向量分割成若干子空间,并对每个子空间进行量化,PQ 可以将原始的高维向量转换为多个低维码本(codebook),从而降低内存需求。

使用 PQ 后,存储索引所需的内存可以减少高达97%, 使 PieCloudVector 在处理大规模数据集时更有效地管理内存,并加快相似性搜索的速度。此外,PQ 还能提升最近邻搜索的速度,通常能够使搜索速度提高 5.5倍。另外,将PQ 与倒排文件(Inverted File,IVF)结合形成的 IVF+PQ 复合索引,在不影响搜索准确性的情况下,进一步提升搜索速度16.5倍。与未使用量化索引相比,总体搜索速度可提高92倍。

在这里插入图片描述

向量压缩(Product Quantization)

4 PieCloudVector 典型应用场景

根据向量的实际使用流程,PieCloudVector 的应用场景大致可以分为四层,分别对应实际使用向量的过程中不同的场景。

4.1 准备数据与切分(图像、文本、音频等)

在这一层,涉及到数据的准备和切分。例如,在图像、文本、音频等形式。需要对原始数据进行预处理、清洗和特征提取,以得到适合后续处理的向量表示。这一步骤通常是为了将原始数据转化为可供创建嵌入(embeddings)的输入。

4.2 创建 Embeddings

在这一层,将通过适当的算法或模型将数据转化为向量表示。这向量表示反映了数据的特征和语义信息。例如,可以使用卷积神经网络(CNN)、循环神经网络(RNN)、Transformer 等模型来生成图像、文本或音频的嵌入表示。

4.3 存储向量

在这一层,将创建的向量表示存储起来,以便后续的向量搜索。PieCloudVector 支持分布式向量存储,可弹性扩展存储资源,并通过向量压缩减少内存的占用。

4.4 向量搜索(Vector Search)

在这一层,基于已存储的向量进行相似性搜索。PieCloudVector 提供高效的向量搜索功能,通过 KNN、ANN 等向量搜索算法,支持 L2 distance, Inner Product,以及 Cosine Distance 向量距离度量方式,能够快速找到与给定查询向量最相似的向量。这种向量搜索功能广泛应用于相似图片检索、相关新闻推荐、用户画像匹配等场景。

下图是 PieCloudVector 在一款知识库系统的应用流程架构,共包括从文本切分到应用程序返回答案给用户六个步骤。该知识库系统利用 PieCloudVector 来支持知识库系统中的语义搜索和答案检索功能。它将文本转化为向量表示,并通过向量相似性搜索来找到相关的答案。这种架构能够高效地处理大规模的文本数据集,并提供准确的答案回复给用户

在这里插入图片描述

知识库系统的应用流程架构

在未来,PieCloudVector 将继续不断迭代和发展,为大模型提供独特的记忆和支持。随着生成式 AI 和大模型的不断演进,PieCloudVector 将更加深入地融合向量数据库的优势,并与其他技术和算法进行紧密集成。

PieCloudVector 将持续改进其存储、索引和查询能力,以应对越来越复杂和庞大的向量数据。 它将探索新的量化算法、近似搜索方法和并行计算策略,以提高查询效率和准确性。

同时,PieCloudVector 将致力于与不同领域的应用场景相结合,并将逐步扩展支持多模态数据的处理和分析能力,提供更全面、灵活的解决方案。

参考资料:

  • 大模型数据计算系统——理论
  • 大模型数据计算系统——实现
  • The Economic Potential of Generative AI: The Next Productivity Frontier
  • Generative AI Cloud Raise Global GDP by 7%

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/225010.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我的NPI项目之Android 安全系列 -- 先认识一下ST33Jxxx

目前接触过的高通平台都没有集成单独的SE,安全运行环境都是高通自家的TEE,又言Trustzone。高通Keystore功能也是依赖TEE来实现的。那么,如果另外集成SE,那么高通的Keystore如何集成?TEE部分要如何配置? 最近…

Ubuntu Shutdown while other user logged on

1. sudo vim /etc/systemd/logind.conf 修改代码KillUserProcessesyes 2. sudo touch /etc/polkit-1/localauthority/50-local.d/multi-user-inhibit-shutdown-restart.pkla 3. 打开修改配置文件 sudo vim /etc/polkit-1/localauthority/50-local.d/multi-user-inhibit-shut…

TrustZone之总线请求

接下来,我们将查看系统中的总线请求者,如下图所示: 系统中的A型处理器具有TrustZone感知,并在每个总线访问中发送正确的安全状态。然而,大多数现代SoC还包含非处理器总线请求者,例如GPU和DMA控制器。 与完成…

MC-30A (32.768 kHz用于汽车应用的晶体单元)

MC-30A 32.768 kHz用于汽车应用的晶体,车规晶振中的热销型号之一。该款石英晶体谐振器,可以在-40 to 85 C的温度内稳定工作,能满足起动振动的要求。同时满足AEC-Q200无源元件质量标准认证,满足汽车仪表系统的所有要求。 频率范围…

蓝桥杯专题-真题版含答案-【基因牛的繁殖】【黄金分割数】【振兴中华】【圆周率与级数】

Unity3D特效百例案例项目实战源码Android-Unity实战问题汇总游戏脚本-辅助自动化Android控件全解手册再战Android系列Scratch编程案例软考全系列Unity3D学习专栏蓝桥系列ChatGPT和AIGC 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分…

Apache Flume(4):日志文件监控

1 案例说明 企业中应用程序部署后会将日志写入到文件中,可以使用Flume从各个日志文件将日志收集到日志中心以便于查找和分析。 2 使用Exec Soucre Exec Source Exec Source通过指定命令监控文件的变化,加粗属性为必须设置的。 属性名默认值说明chan…

ida脚本环境开发配置idapythonidacpp三端环境(win,mac,linux)

ida脚本也有一段时间了,一直有个痛点是找不到比较好的方法热重载脚本来实时改动生效,导致开发效率老慢了。固总结下比较友好的环境搭配 使用ida热加载插件让你开发脚本更高效 github地址: GitHub - 0xeb/ida-qscripts: An IDA plugin to increase productivity when developi…

【Spark精讲】Spark与MapReduce对比

目录 对比总结 MapReduce流程 ​编辑 MapTask流程 ReduceTask流程 MapReduce原理 阶段划分 Map shuffle Partition Collector Sort Spill Merge Reduce shuffle Copy Merge Sort 对比总结 Map端读取文件:都是需要通过split概念来进行逻辑切片&…

CVE-2023-50164 Apache Struts2漏洞复现

CVE-2023-50164 简介: 从本质上讲,该漏洞允许攻击者利用 Apache Struts 文件上传系统中的缺陷。它允许他们操纵文件上传参数并执行路径遍历。这种利用可能会导致在服务器上执行任意代码,从而导致各种后果,例如未经授权的数据访问…

DS冲刺整理做题定理(四)查找与排序

最后一期更新,考试之前应该不会再出该专题了,之后有时间会出一些有关链表的代码题,其他章节只挑选重点的总结~ 一.查找 1.顺序查找 又被称为线性查找,对顺序表和链表都使用~基本思想是从某一端开始,逐个检查关键字是否…

GZ015 机器人系统集成应用技术样题1-学生赛

2023年全国职业院校技能大赛 高职组“机器人系统集成应用技术”赛项 竞赛任务书(学生赛) 样题1 选手须知: 本任务书共 25页,如出现任务书缺页、字迹不清等问题,请及时向裁判示意,并进行任务书的更换。参赛队…

idea__SpringBoot微服务12——整合Mybatis框架(新依赖)(新注解)

整合Mybatis框架 完整项目地址:一、创建一个新的项目,导入mybatis依赖,lombok依赖。二、idea内置数据库管理工具连接数据库。三、编写实体类。四、编写Mapper接口。(新注解)五、编写Mapper.XML。六、编写数据库连接文件…

OpenCV中的格式转换

目录 1. 前言2. 采集到播放数据流的走向3. OpenCV中的格式转换3.1 RGB3.2 YUV3.2.1 YUV420{P}3.2.2 YUV420SP 4 简单应用5. 关联文章 1. 前言 实际音视频开发过程芯片是做了硬件加速的,主要涉及到视频编解码。二次开发过程中需要对SDK做一定的封装使用才行。 写这…

JMeter安装RabbitMQ测试插件

整体流程如下:先下载AMQP插件源码,可以通过antivy在本地编译成jar包,再将jar包导入JMeter目录下,重启JMeter生效。 Apache Ant 是一个基于 Java 的构建工具。Ant 可用于自动化构建和部署 Java 应用程序,使开发人员更轻…

MYSQl基础操作命令合集与详解

MySQL入门 先来个总结 SQL语言分类 DDL(Data Definition Language) - 数据定义语言: 用于定义和管理数据库结构,包括创建、修改和删除数据库对象。 示例:CREATE, ALTER, DROP等语句。 DML(Data Manipulation Lan…

常见箱包五金ERP有哪些?箱包五金ERP哪个好用

不同的箱包五金有不同的营销渠道和经营模式,而每一个营销渠道的商品信息维护流程和方式也不尽相同。另外,箱包五金价格制定、品质检验、产品种类、物料编码、批号追踪等环节的管理也比较繁琐。 近些年数字科技也被广泛的应用于箱包五金领域,…

Module ‘app‘: platform ‘android-33‘ not found.

目录 一、报错信息 二、解决方法 一、报错信息 Module app: platform android-33 not found. 检查你的应用程序的build.gradle文件中的targetSdkVersion和compileSdkVersion是否正确设置为已安装的Android SDK版本。 确保你的Android Studio已正确安装并配置了所需的Android …

TCP为什么可靠之“拥塞控制”

拥塞控制是对网络层面的控制,主要是为了避免发送方发送过多的数据导致网络阻塞,以及出现网络阻塞时能够调整数据发送速率,达到对网络阻塞的一个控制。 拥塞窗口 拥塞窗口cwnd,是发送方维护的一个状态变量,会根据网络…

Windows 11上边两个空格导致我多熬了1个多小时

将图中的文件路径复制,然后到文件管理器里边去搜索。 发现找不到,可是明明就在这里啊。 我百思不得其解,还以为是IDEA出了问题,我只能是重新启动项目,结果还是告诉我找不到文件。 要是同一个目录下已经有一个名为a…

【设计模式--行为型--中介者模式】

设计模式--行为型--中介者模式 中介者模式定义结构案例实现优缺点使用场景 中介者模式 定义 又叫调停模式,定义一个中介角色来封装一系列对象之间的交互,使原有对象之间的耦合松散,且可以独立的改变它们之间的交互。 结构 抽象中介者角色…