milvus 通俗易懂原理

向量值如何生成的

Milvus 是一个开源的向量数据库,专门用于处理高维向量的存储、搜索和分析。向量值本身通常来自于某些机器学习或深度学习模型的输出,尤其是在自然语言处理(NLP)、计算机视觉(CV)、推荐系统等应用中。具体来说,向量值的生成过程通常包括以下几个步骤:

  1. 数据表示与特征提取文本数据:

对于文本数据,向量通常是通过词嵌入(Word Embedding)或句子嵌入(Sentence Embedding)生成的。例如,利用像 Word2Vec、GloVe 或 BERT 这样的预训练模型,可以将文本(单词、句子、段落)转换成高维向量(embedding)。这些向量能够捕捉到文本的语义信息。

图像数据:对于图像数据,向量通常是通过深度神经网络(如卷积神经网络,CNN)进行特征提取。例如,使用 ResNet、VGG、EfficientNet 等预训练模型,可以将图像转换为一个固定长度的高维向量,表示图像的特征。

音频数据:对于音频数据,通常使用 MFCC(梅尔频率倒谱系数)、VGGish 等方法将音频信号转化为向量表示。视频数据:视频数据通常通过处理每一帧图像或提取时序特征来生成向量,这些向量可以反映视频中的动态信息。

  1. 特征向量生成经过特征提取后,得到的向量(通常是一个浮动的高维数字数组)就代表了数据在某个特征空间中的位置。通过深度学习模型(如卷积神经网络、循环神经网络、Transformer等)训练出的向量通常能较好地捕捉数据的语义信息。比如,对于文本数据,使用 BERT 这类大型语言模型生成的句子向量可以反映出句子中单词之间的语义关系。

  2. 向量的存储与索引Milvus 会接收这些高维向量并将其存储在数据库中,提供高效的向量搜索。Milvus 使用了特定的向量索引结构(如 IVF、HNSW、Annoy 等)来加速高维向量之间的相似性搜索。

  3. 向量搜索一旦向量存储在 Milvus 中,你可以使用 相似性搜索 来查找相似向量。Milvus 提供多种搜索算法,可以通过向量之间的距离度量(如 欧氏距离、余弦相似度、曼哈顿距离 等)来找到最相似的向量。

总结:Milvus 中的“向量值”通常是通过各种机器学习和深度学习模型从原始数据(如文本、图像、音频等)中提取出来的。这些向量表示了数据的特征,可以用于相似度搜索、聚类、推荐等任务。具体的生成方式取决于输入数据的类型和应用场景。

如何查询一个相似性

在 Milvus 或其他向量数据库中进行向量搜索时,核心思想是利用向量之间的相似度度量来找到最相似的向量。具体而言,当你提供一个查询向量(比如一个待搜索的值),Milvus 会计算这个查询向量与数据库中存储的每个向量之间的相似度,然后返回与查询向量最相似的那些向量。

这个过程可以分为以下几个关键步骤:

  1. 向量表示和相似度度量

向量表示:首先,数据(如文本、图像、音频等)被转化为向量。每个数据点都有一个高维向量表示,它是数据在某种特征空间中的位置。查询时,你会提供一个查询向量,表示你要查找的内容。

相似度度量:Milvus 通过计算查询向量和存储向量之间的相似度来判断它们的相似程度。常见的相似度度量方法有:
欧氏距离(Euclidean Distance):用于计算两向量之间的直线距离。距离越小,相似度越高。
余弦相似度(Cosine Similarity):用于衡量两个向量的夹角,值越大(接近1),表示两个向量越相似。
曼哈顿距离(Manhattan Distance):计算向量在各个维度上的绝对差的总和。
通常,余弦相似度和欧氏距离是最常用的相似度度量方法,尤其在处理文本和高维数据时。

  1. 向量索引结构

由于高维数据的计算复杂度较高,直接对所有向量进行一对一比较(即暴力搜索)会非常低效。为此,Milvus 使用了几种高效的向量索引结构,以加速相似度计算和检索。常见的索引结构有:

倒排文件(IVF, Inverted File):将向量分成若干个簇,并将每个簇索引起来。当查询向量到来时,Milvus 只需要搜索与查询向量相似的簇,从而避免了对整个数据库的全面搜索。IVF 适用于大规模数据集,能够提高查询速度。
HNSW(Hierarchical Navigable Small World):一种图索引方法,通过构建小世界网络来加速相似向量的查找。HNSW 在高维空间中也能提供高效的近似邻近搜索。
Annoy(Approximate Nearest Neighbor Search):一种基于树结构的近似搜索算法,适用于在大规模数据集上进行快速的相似性搜索。
PQ(Product Quantization):将向量分解为子向量,通过量化方法来减少存储空间,并加速相似度搜索。
这些索引方法能够大幅度降低计算复杂度,使得即便是在数百万或数十亿个向量的数据库中,Milvus 也能快速响应相似度搜索请求。

  1. 近似搜索 vs 精确搜索

在大规模向量搜索中,直接进行精确的最近邻搜索会非常耗时,尤其是高维空间(如数百维或更高)的情况下。Milvus 提供了近似最近邻搜索(ANN),即在搜索时通过某些算法(如HNSW、IVF)进行近似计算,以换取更高的速度。虽然这种方法不是100%精确的,但在大多数应用中,这种近似误差是可以接受的,并且相较于精确搜索,能大大提高效率。

精确搜索:会计算查询向量与所有向量的相似度,找到最匹配的向量。这种方法计算量大,适合数据量不大的情况。
近似搜索:通过近似算法(如图结构、聚类等)来减少需要检查的向量数目,通常能提供足够高质量的搜索结果,但可能会错过一些最相似的向量。
4. 搜索流程

搜索过程的一般流程如下:

生成查询向量:首先,系统会将查询的数据(如文本、图像)转化为向量表示,称为查询向量。

索引选择和查找:Milvus 会根据存储的向量的索引类型(如HNSW、IVF等)选择合适的索引结构,定位出可能与查询向量相似的子集。

计算相似度:通过计算查询向量与候选向量之间的相似度,找到最相似的向量。Milvus 会根据设置的参数(如返回的近邻数)返回前 K 个最相似的向量。

返回结果:返回相似度最高的向量及其对应的原始数据。

  1. 示例:搜索文本相似度

假设你有一组文本数据,并已经通过 BERT 或其他模型将每个文本转换成了一个向量(例如 768 维的向量)。当你输入一个查询文本时,系统会将该文本转换成一个向量,并利用之前提到的索引结构(如 HNSW 或 IVF)找到与查询向量相似的文本。通过计算这些向量之间的相似度(如余弦相似度),系统会返回与查询最相似的文本及其相关信息。

总结

向量搜索的核心在于通过计算查询向量与数据库中存储向量之间的相似度,来找到最相关的数据。Milvus 通过高效的索引方法和相似度度量来加速这一过程,使得在大规模数据集上,向量相似度搜索既高效又准确。同时,Milvus 支持精确搜索和近似搜索,提供了灵活的选择来平衡搜索精度和性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/62370.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国产FPGA+DSP 双FMC 6U VPX处理板

高性能国产化信号处理平台采用6U VPX架构,双FMC接口国产V7 FPGA 国产多核 DSP 的硬件架构,可以完成一体化电子系统、有源相控阵雷达、电子侦察、MIMO 通信、声呐等领域的高速实时信号处理。 信号处理平台的组成框图如图 1 所示, DSP处理器采…

AI数据分析工具(二)

豆包-免费 优点 强大的数据处理能力: 豆包能够与Excel无缝集成,支持多种数据类型的导入,包括文本、数字、日期等,使得数据整理和分析变得更加便捷。豆包提供了丰富的数据处理功能,如数据去重、填充缺失值、转换格式等…

STM32G4系列MCU的Direct memory access controller (DMA)功能介绍之二

目录 概述 1 DMA通道 1.1 可编程数据大小 1.2 指针增量 2 通道配置 2.1 配置步骤 2.2 通道状态和禁用通道 3 模式应用 3.1 循环模式(内存到外设/外设到内存的传输) 3.2 内存到内存模式 3.3 Peripheral-to-peripheral模式 3.4 编程转移方向&a…

【一文读懂】大语言模型

学习参考 项目教程:中文教程 代码仓库:代码地址 仓库代码目录说明: requirements.txt:官方环境下的安装依赖 notebook:Notebook 源代码文件 docs:Markdown 文档文件 figures:图片 data_base&…

大数据-234 离线数仓 - 异构数据源 DataX 将数据 从 HDFS 到 MySQL

点一下关注吧!!!非常感谢!!持续更新!!! Java篇开始了! 目前开始更新 MyBatis,一起深入浅出! 目前已经更新到了: Hadoop&#xff0…

鸿蒙进阶篇-Stage模型、UIAbility

“在科技的浪潮中,鸿蒙操作系统宛如一颗璀璨的新星,引领着创新的方向。作为鸿蒙开天组,今天我们将一同踏上鸿蒙基础的探索之旅,为您揭开这一神奇系统的神秘面纱。” 各位小伙伴们我们又见面了,我就是鸿蒙开天组,下面让我们进入今…

学习threejs,使用specularMap设置高光贴图

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.MeshPhongMaterial高…

一个简洁的ajax注册登录找回密码切换的前端页面

成功和失败不同颜色显示&#xff0c;纯原生代码不需要jq等第三方插件 <% Language"VBScript" CodePage"65001"%> <% Response.Charset "UTF-8" Session.CodePage "65001" Response.Addheader "Content-Type",&q…

uniapp首页样式,实现菜单导航结构

实现菜单导航结构 1.导入字体图标库需要的文件 2.修改引用路径iconfont.css 3.导入到App.vue中 <style>import url(./static/font/iconfont.css); </style>导航区域代码 VUE代码 <template><view class"home"><!-- 导航区域 --><…

解析客服知识库搭建的五个必要性

在当今竞争激烈的商业环境中&#xff0c;客服知识库的搭建已成为企业提升服务质量、优化客户体验的重要手段。一个完善的客服知识库不仅能帮助企业高效管理客户服务流程&#xff0c;还能显著提升客户满意度和忠诚度。以下是搭建客服知识库的五个必要性&#xff1a; 1. 提升服务…

淘宝Vision Pro:革新购物体验的沉浸式未来

引言 简要介绍淘宝Vision Pro版的背景,包括它在美区AppStore的发布及WWDC上的展示。阐述本文的目的:为读者提供一个全面的功能概览与设计背后的思考。设计原则 列出并简要解释5条设计原则(熟悉、直观、真实、实用、易用)。说明这些原则如何指导整个产品设计过程。核心功能详…

【CSS in Depth 2 精译_062】第 10 章 CSS 中的容器查询(@container)概述 + 10.1 容器查询的一个简单示例

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 【第十章 CSS 容器查询】 ✔️ 10.1 容器查询的一个简单示例 ✔️ 10.1.1 容器尺寸查询的用法 ✔️ 10.2 深入理解容器10.3 与容器相关的单位10.4 容器样式查询的用法10.5 本章小结 文章目录 第 10…

HCIE:详解OSPF,从基础到高级特性再到深入研究

目录 前言 一、OSPF协议基本原理 简介 基本原理 OSPF路由器类型 OSPF网络类型 OSPF报文类型和封装 OSPF邻居的建立的维护 DR和BDR的选举 伪节点 LSDB的更新 OSPF的配置 二、OSPF的高级特性 虚连接&#xff08;Virtual-Link&#xff09; OSPF的LSA和路由选择 OSPF…

think php处理 异步 url 请求 记录

1、需求 某网站 需要 AI生成音乐&#xff0c;生成mp3文件的时候需要等待&#xff0c;需要程序中实时监听mp3文件是否生成 2、用的开发框架 为php 3、文件结构 配置路由设置 Route::group(/music, function () {Route::post(/musicLyrics, AiMusic/musicLyrics);//Ai生成歌词流式…

【VRChat 改模】开发环境搭建:VCC、VRChat SDK、Unity 等环境配置

一、配置 Unity 相关 1.下载 UnityHub 下载地址&#xff1a;https://unity.com/download 安装打开后如图所示&#xff1a; 2.下载 VRChat 官方推荐版本的 Unity 跳转界面&#xff08;VRChat 官方推荐页面&#xff09;&#xff1a;https://creators.vrchat.com/sdk/upgrade/…

ollama部署bge-m3,并实现与dify平台对接

概述 这几天为了写技术博客,各种组件可谓是装了卸,卸了装,只想复现一些东西,确保你们看到的东西都是可以复现的。 (看在我这么认真的份上,求个关注啊,拜托各位观众老爷了。) 这不,为了实验在windows上docker里运行pytorch,把docker重装了。 dify也得重装: Dify基…

详细介绍HTTP与RPC:为什么有了HTTP,还需要RPC?

目录 一、HTTP 二、RPC 介绍 工作原理 核心功能 如何服务寻址 如何进行序列化和反序列化 如何网络传输 基于 TCP 协议的 RPC 调用 基于 HTTP 协议的 RPC 调用 实现方式 优点和缺点 使用场景 常见框架 示例 三、问题 问题一&#xff1a;是先有HTTP还是先有RPC&…

Lesson 10 GNN

听课&#xff08;李宏毅老师的&#xff09;笔记&#xff0c;方便梳理框架&#xff0c;以作复习之用。本节课主要讲了生成式对抗网络&#xff08;GNN&#xff09;。 目录 Generation Network as Generator 到目前为止&#xff0c;我们学习到的是类似于函数的network&#xf…

Scala入门基础(20)数据集复习拓展

一.Stack栈二.Queue 队列 一.Stack栈 Stack:栈&#xff0c;特殊的结构。它对元素的操作是在头部&#xff1a;栈顶 先进后出的队列。pop表示取出&#xff0c;push表示在栈中添加元素 二.Queue 队列 Queue 队列;先进先出.enqueue入队&#xff0c;dequeue出队。

Ubuntu20.04运行DM-VIO

目录 环境配置非ROS环境运行编译运行结果图 ROS环境参考 环境配置 Ubuntu20.04 将项目中Cmakelists.txt中C 和 opencv版本修改下 C 使用 14 opencv使用4 非ROS环境运行 编译 按照官网即可 cd dm-vio mkdir build cd build cmake .. make -j运行 DM-VIO给的命令是 bin/d…