【数据库】你听说过矢量数据库吗?

在这里插入图片描述


个人主页:【😊个人主页】
系列专栏:【❤️其他领域】


文章目录

  • 前言
  • 什么是向量/矢量数据库
  • 嵌入模型
  • 使用向量数据库的优势
    • 与传统数据库的对比
    • 其他方面
  • AWS 如何支持您的矢量数据库需求?
    • Amazon OpenSearch Service
    • Amazon Aurora PostgreSQL-Compatible Edition和Amazon Relational Database Service (Amazon RDS) for PostgreSQL
    • Amazon Neptune ML


前言

在今年三月结束的 NVIDIA GTC Keynote (英伟达 GPU 技术大会)中,黄仁勋首次提及向量数据库(Vector Database),他强调了对于构建专有大型语言模型的组织而言,向量数据库至关重要,让人们将目光聚焦在了这一全新的概念之上。今天我们就来谈谈向量数据库的概念。
在这里插入图片描述

“我们将推出一个新的库,即 RAFT,用于加速索引、数据加载和近邻检索。我们正在将 RAFT 的加速引入到 Meta 的开源 FAISS AI 相似性搜索,超过 1000 家组织使用的 Milvus 开源向量数据库以及 Docker 镜像下载次数超过 40 亿次的 Redis。对于构建专有大型语言模型的组织而言,向量数据库至关重要。”黄仁勋表示

什么是向量/矢量数据库

在数学中,我们对向量的定义是有大小和方向的量,可以使用带箭头的线段表示,箭头指向即为向量的方向,线段的长度表示向量的大小。

而向量数据库(Vector Database),在某些地方我们也称之它为矢量数据库(以下均称向量数据库)1顾名思义是用来存储和处理向量数据的数据库系统。
在这里插入图片描述


嵌入模型

可能会有很多人好奇为什么一个储存向量的数据库会与人工智能联系紧密?这里我们就要引入一个新的概念——嵌入模型。人工智能和机器学习(AI/ML)的创新使我们能够创建一种机器学习模型,即嵌入模型。嵌入模型将所有类型的数据编码为向量,以捕获资产的含义和上下文。

嵌入模型是一种将高维数据映射到低维空间的技术,它可以将数据表示为低维向量,从而更好地进行数据分析和处理
基于GNN的动态图模型和KGE都是嵌入模型的应用。其中,基于GNN的动态图模型可以将图的动态演化信息保留在低维嵌入中,从而更好地对图进行建模和分析。
知识图谱嵌入(KGE)是一种利用监督学习来学习嵌入以及节点和边的向量表示的模型。它们将“知识”投射到一个连续的低维空间,这些低维空间向量一般只有几百个维度(用来表示知识存储的内存效率)。向量空间中,每个点代表一个概念,每个点在空间中的位置具有语义意义。

在这里插入图片描述

图像、文本和音视频这种非结构化数据都可以通过某种变换或者嵌入学习转化为向量数据存储到向量数据库中,从而实现对图像、文本和音视频的相似性搜索和检索。这意味着您可以使用向量数据库根据语义或上下文含义查找最相似或相关的数据,而不是使用基于精确匹配或预定义标准查询数据库的传统方法。


使用向量数据库的优势

我们都知道评判一个数据库的优劣往往是通过其对数据的处理能力来进行判断。

与传统数据库的对比

数据的搜索方面:向量数据库使用相似性搜索,可以快速找到与查询向量最接近的向量。
在数据容量方面:因为向量数据通常比文本和结构化数据更紧凑占用更少的存储空间,所以相比于传统数据库,向量数据库可以支持更大的数据容量,

其他方面

在对数据处理的准确性方面:向量数据库支持基于向量距离的相似性搜索,可以更准确地匹配查询向量和目标向量之间的相似度。
更好的数据可视化:向量数据库可以将数据向量转换为低维空间的点或者图形进行可视化,帮助用户更好地理解数据的关系和分布。
更好的扩展性:向量数据库采用分布式架构,可以轻松地扩展到多个节点,以满足高并发的查询需求。
在这里插入图片描述

AWS 如何支持您的矢量数据库需求?

Amazon Web Services(AWS)针对您的矢量数据库要求提供了一系列服务

Amazon OpenSearch Service

由亚马逊提供的全托管搜索和分析服务。是一个开源的搜索和分析引擎,是 ElasticSearch 项目的一个分支。它支持在大规模数据集上进行实时搜索、近实时搜索、文本搜索和复杂的分析操作。OpenSearch Service 可以快速扩展以支持数百万次查询和分析请求,并提供高可用性和可扩展性。

在这里插入图片描述

Amazon Aurora PostgreSQL-Compatible Edition和Amazon Relational Database Service (Amazon RDS) for PostgreSQL

Amazon Aurora PostgreSQL-Compatible Edition是一种高性能、可扩展的数据库引擎,它是AWS自主开发的,与传统的PostgreSQL数据库引擎不同。它是兼容PostgreSQL的,因此可以与PostgreSQL应用程序无缝集成。它具有快速数据副本和快速恢复功能,以及自适应容量和自动故障转移功能,这使它成为大型、高吞吐量应用程序的理想选择。
Amazon RDS for PostgreSQL是一种基于传统PostgreSQL数据库引擎的托管式数据库服务。它提供了与常规PostgreSQL数据库相同的功能和API,但可以自动扩展、备份和维护。它也很容易使用,可以通过AWS管理控制台轻松配置和管理数据库实例。

Amazon Neptune ML

Amazon Neptune ML 是 AWS Neptune 的一个扩展功能,它使用户能够在 Neptune 图形数据库中使用机器学习功能,包括自动图形分类、预测和生成。这使得 Neptune 更容易地学习和推理图形数据,从而更好地支持应用程序、搜索引擎和推荐系统等业务场景。
在这里插入图片描述


  1. 关于是向量数据库还是矢量数据库的问题因为翻译的缘故网络上没有明确的标准,但在百度百科的官方介绍中并未提及矢量数据库的概念 ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/151856.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python loglog()函数

常用坐标下的图像显示 import matplotlib.pyplot as plt import numpy as np import mathplt.figure() x_input np.linspace(1, 10, 50) y_input x_input**2plt.plot(x_input, y_input,r-,linewidth2) plt.show()在loglog函数尺度下的曲线 plt.loglog(x_input, y_input,r-,…

机器人走迷宫问题

题目 1.房间有XY的方格组成,例如下图为64的大小。每一个方格以坐标(x,y) 描述。 2.机器人固定从方格(0, 0)出发,只能向东或者向北前进,出口固定为房间的最东北角,如下图的 方格(5,3)。用例保证机器人可以从入口走到出口。 3.房间…

[JDK工具-2] javap 类文件解析工具-帮助理解class文件,了解Java编译器机制

文章目录 1. javap -version 版本信息2. javap -verbose 输出附加信息3. javap -l 显示行号和局部变量列表4. javap -c 对代码进行反汇编(或叫反编译生成汇编代码,一般说反编译是生成java代码),分解方法代码,也就是显示…

想要成为CSS大师?这些技巧是你必须知道的!

前言 CSS 是网页设计中不可或缺的一部分,掌握一些实用的 CSS 技巧,可以让你在设计中展现出更多的创意和个性。本文将介绍一些 CSS 技巧,帮助你提升自己的技能,成为一个真正的 CSS 大师。 1. 改变 input 自动填充的背景颜色 这段 …

高精度算法【Java】(待更新中~)

高进度加法 在Java中可以使用BigInteger进行高精度计算,除此也可以仿照竖式相加的计算原理进行计算。 BigInteger 提供所有 Java 的基本整数操作符的对应物,并提供 java.lang.Math 的所有相关方法。另外,BigInteger 还提供以下运算&#xff1…

网上被吹爆的Spring Event事件订阅有缺陷,不要用

Spring Event事件订阅框架,被网上一些人快吹上天了,然而我们在新项目中引入后发现,这个框架缺陷很多,玩玩可以,千万不要再公司项目中使用。还不如自己手写一个监听者设计模式,那样更稳定、可靠。 之前我已…

ARM CoreLink CCN 互连总线介绍

NIC NOC CCI CMN CNN NI cmn-700 nic-700 ni-700 MLGB这都是啥玩意? 后期博文或视频将会更新这一系列。今天先温习一下CNN的概念,这是来自2014年的文章,然后稍微整理总结一番。 以下是正文… 现代主流和优质 ARM 片上系统 (SoC) 产品使用 CoreLink 缓存一致性网络 (CCN) 504…

SpringBoot-过滤器Filter+JWT令牌实现登录验证

登录校验-Filter 分析 过滤器Filter的快速入门以及使用细节我们已经介绍完了,接下来最后一步,我们需要使用过滤器Filter来完成案例当中的登录校验功能。 我们先来回顾下前面分析过的登录校验的基本流程: 要进入到后台管理系统,我…

IDEA运行thymeleaf的html文件打开端口为63342且连不上数据库

这边贴apple.html代码 <!DOCTYPE html> <html xmlns:th"http://www.thymeleaf.org"> <head><meta charset"UTF-8"><title>User List</title> </head> <body> <h1>User List</h1> <table&…

elementui表格自定义指令控制显示哪些列可以拖动

Vue.directive(tableBorder, function (el, {value}) {// value允许传字符串数字和数组el.classList.add(z_table_hasBorder)let hasStyle el.querySelector(style)if(hasStyle){hasStyle.remove()}let style document.createElement(style)let str .z_table_hasBorder .el…

【数据结构与算法】Kadane‘s算法(动态规划、最大子数组和)

文章目录 一、算法原理二、例题2.1 最大子数组和2.2 环形子数组的最大和 一、算法原理 Kadanes算法是一种用于解决最大子数组和问题的动态规划算法。这类问题的目标是在给定整数数组中找到一个连续的子数组&#xff0c;使其元素之和最大&#xff08;数组含有负数&#xff09;。…

IObit Unlocker丨解除占用程序软件

更多内容请收藏&#xff1a;https://rwx.tza-3.xyz 官网&#xff1a;IObit Unlocker “永远不用担心电脑上无法删除的文件。” 界面简单&#xff0c;支持简体中文&#xff0c;一看就会&#xff0c;只需要把无法删除/移动的文件或整个U盘拖到框里就行。 解锁率很高&#xff0c;…

elasticsearch 概述

初识elasticsearch 了解ES elasticsearch的作用 elasticsearch是一款非常强大的开源搜索引擎&#xff0c;具备非常多强大功能&#xff0c;可以帮助我们从海量数据中快速找到需要的内容 例如&#xff1a; 在GitHub搜索代码 在电商网站搜索商品 ELK技术栈 elasticsearc…

我叫:插入排序【JAVA】

1.自我介绍 插入式排序属于内部排序法,是对于欲排序的元素以插入的方式找寻该元素的适当位置&#xff0c;以达到排序的目的。 2.继承我的思想 插入排序(Insertion Sorting)的基本思想是:把n个待排序的元素看成为一个有序表和一个无序表,开始时有序表中只包含一个元素,无序表中包…

设计模式—结构型模式之外观模式(门面模式)

设计模式—结构型模式之外观模式&#xff08;门面模式&#xff09; 外观&#xff08;Facade&#xff09;模式又叫作门面模式&#xff0c;是一种通过为多个复杂的子系统提供一个一致的接口&#xff0c;而使这些子系统更加容易被访问的模式。 例子 我们的电脑会有很多 组件&am…

动态页面调研及设计方案

文章目录 vue2 动态表单、动态页面调研一、form-generator二、ng-form-element三、Variant Form四、form-create vue2 动态表单、动态页面调研 一、form-generator 预览&#xff1a;https://mrhj.gitee.io/form-generator/#/ Vue2 Element UI支持拖拽生成表单不支持其他组件…

pytorch的backward()的底层实现逻辑

自动微分是一种计算张量&#xff08;tensors&#xff09;的梯度&#xff08;gradients&#xff09;的技术&#xff0c;它在深度学习中非常有用。自动微分的基本思想是&#xff1a; 自动微分会记录数据&#xff08;张量&#xff09;和所有执行的操作&#xff08;以及产生的新张…

基于梯度算法优化概率神经网络PNN的分类预测 - 附代码

基于梯度算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于梯度算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于梯度优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要&#xff1a;针对PNN神经网络的光滑…

细说MySQL数据类型

TOC 目录 MySQL数据类型 数据类型分类 数值类型 tinyint类型 有符号tinyint范围测试 无符号tinyint范围测试 bit类型 bit类型的显示方式 bit类型的范围测试 float类型 有符号float范围测试 无符号float范围测试 decimal类型 字符串类型 char类型 char类型测试 …

Jmeter 如何监控目标服务的系统资源

下载Jmeter插件管理下载 perfmon 将这个插件管理放到Jmeter的\lib\ext目录下 然后重启Jmeter jmeter-plugins-manager-1.10.jar 下载 perfmon插件 添加 io 内存 磁盘的监听 并且添加监听 在宿主机中安装代理监听程序 并启动 ServerAgent.tar.gz