发表在SIGMOD 2024上的高维向量检索/向量数据库/ANNS相关论文

前言

SIGMOD 2024会议最近刚在智利圣地亚哥结束,有关高维向量检索/向量数据库/ANNS的论文主要有5篇,涉及混合查询(带属性或范围过滤的向量检索)优化、severless向量数据库优化、量化编码优化、磁盘图索引优化。此外,也有一些其它相关论文,比如FedKNN: Secure Federated k-Nearest Neighbor Search。

下面对这些论文进行一个简单汇总介绍。

SeRF : Segment Graph for Range-Filtering Approximate Nearest Neighbor Search

在这里插入图片描述
这篇论文主要研究带范围过滤的向量检索问题,作者基于HNSW提出了两种范围过滤图索引:SegmentGraph和2DSegmentGraph,它们分别用于处理范围约束是半界范围和任意范围的情况。由于构建一个考虑范围情况的索引会显著增加索引处理时间和索引尺寸,这篇论文主要对离线构建过程做了大量优化,从而大幅减少离线处理开销和显著压缩了索引。比如,SegmentGraph通过无损压缩实现了索引尺寸与原始HNSW相当。

RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search

在这里插入图片描述
这篇论文主要研究了一种新的量化(quantization)方法RaBitQ,讲高维向量编码为等维度的二值向量。与当前流行的PQ及其变体相比,RaBitQ具有如下优势:(1)距离评估是无偏的,具有理论概率误差界;(2)RaBitQ能实现更高的精度且只需更短的编码;(3)距离评估更高效。

Vexless : A Serverless Vector Data Management System Using Cloud Functions

在这里插入图片描述
这篇论文主要研究了在无服务器云函数(Cloud Funtions)下向量数据库的设计和优化,本文主要聚焦在三个方面:(1)Sharding策略;(2)通讯机制;(3)冷启动。本文基于Azure Functions对上述三个方面做了具体的优化,优化系统Vexless具有高弹性、低运营成本、细粒度计费模型等优点。

ACORN: Performant and Predicate-Agnostic Search Over Vector Embeddings and Structured Data

在这里插入图片描述
这篇论文主要研究混合查询问题,即带属性过滤约束的向量检索。当前混合查询技术路线主要有3类:前过滤、后过滤、混合过滤。本文的技术路线是沿着第3种,即为属性和向量构建混合索引,即设计专用于混合查询的索引。对于范围过滤,本文的方案可能仅适用于一些简单范围过滤情况,比如一定数量的年份,可能并不适用于具有非常精细的范围过滤约束的混合查询。

本文方案基于HNSW算法,优化HNSW的索引构建过程从而使构建的HNSW索引融合属性信息,主要思想与之前的NHQ、Filter-DiskANN等类似,都是把属性信息融入到近邻图索引中,从而使索引不仅包含向量近邻关系也考虑顶点之间的属性关系。ACORN构建了一个更“稠密”的HNSW,即邻居数更多了。显然,ACORN需要更多索引构建时间和索引内存占用开销。

执行混合查询时,若谓词的可选择性比较低,可能用前过滤比较适合,本文通过代价模型来根据查询谓词的可选择性来选择具体执行前过滤还是ACORN。

ACORN支持的过滤类型(y是谓词):(1)equals(y); (2)contains(y1,y2,…); (3)between(y1,y2); (4)regex-match(y).

在实验中,(3)过滤类型是年份。

Starling: An I/O-Efficient Disk-Resident Graph Index Framework for High-Dimensional Vector Similarity Search on Data Segment

在这里插入图片描述
本文提出了一种 I/O 高效的磁盘图索引框架Starling,以优化数据段内的数据布局和搜索策略。它有两个主要组成部分:(1)数据布局包含内存中导航图和重新排序的磁盘图索引,这增强了存储局部性并减少搜索路径长度,从而最大限度地减少磁盘带宽浪费; (2) 块搜索策略,旨在最大限度地减少向量查询执行期间昂贵的磁盘 I/O 操作。 在2GB内存和10GB磁盘容量的数据段上,Starling可容纳多达3300万个128维向量,提供超过0.9的平均精度以及低于1毫秒延迟的HVSS。与最先进的方法相比,Starling的吞吐量提高了43.9 倍,查询延迟降低了98%,同时保持了相同的精度水平。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/32838.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序入门2

微信开发者工具的安装方法 1.打开微信开发者工具下载页面 在微信小程序管理后台的左侧边栏中选择“开发工具”,然后选择“开发者工具”,即可找到微信开发者工具的下载页面。 2.打开微信开发者工具的下载链接页面 单击“下载” 按钮下载,即…

越复杂的CoT越有效吗?Complexity-Based Prompting for Multi-step Reasoning

Complexity-Based Prompting for Multi-step Reasoning 论文:https://openreview.net/pdf?idyf1icZHC-l9 Github:https://github.com/FranxYao/chain-of-thought-hub 发表位置:ICLR 2023 Complexity-Based Prompting for Multi-step Reason…

STM32 - LED灯 蜂鸣器

🚩 WRITE IN FRONT 🚩 🔎 介绍:"謓泽"正在路上朝着"攻城狮"方向"前进四" 🔎🏅 荣誉:2021|2022年度博客之星物联网与嵌入式开发TOP5|TOP4、2021|2222年获评…

Pytest框架中pytest.mark功能

文章目录 mark功能 1. 使用pytest.mark.skip 2. 使用pytest.mark.skipif 3. 使用 pytest.mark.xfail 4使用pytest.mark.parametrize 5 使用pytest.mark.自定义标记 6 使用pytest.mark.usefixtures pytest 的mark功能在pytest官方文档是这样解释的: https://…

stm32学习笔记---GPIO输出(代码部分)LED闪烁/流水灯/蜂鸣器

目录 面包板的使用方法 第一个演示代码:LED闪烁 最后一次快速新建工程演示 点击新建工程 选择芯片 在工程文件夹中创建Start、Library、User Start文件夹的必备文件复制操作 Library文件夹的必备文件复制操作 User文件夹的必备文件复制操作 在keil中创建S…

关于数据登记的六点观察|数据与治理思享会(第1期)圆满举行

本文内容转载自 数据与治理专委会。 鼹鼠哥有幸在上周参与了数据大讲堂的首次线下活动,也做了个简短笔记 [最新]清华数据大讲堂线下思享会 因为上次是个人笔记,有些内容不方便些。既然今天官方公众号发出来了,就在这里把官方的内容也给大家转…

Repair LED lights

Repair LED lights 修理LED灯,现在基本用灯带,就是小型LED灯串联一起的 1)拆旧灯条,这个旧的是用螺丝拧的产品 电闸关掉。 2)五金店买一个,这种是磁铁吸附的产品 现在好多都是铝线啊。。。 小部件&#x…

【大数据离线项目四:什么是海豚调度?怎么使用可以将海豚调度应用到我们的大数据项目开发中?】

前言: 💞💞大家好,我是书生♡,今天主要和大家分享一下什么是海豚调度?怎么使用可以将海豚调度应用到我们的项目开发中?希望对大家有所帮助。 💞💞代码是你的画笔&#xf…

数组 (java)

文章目录 一维数组静态初始化动态初始化 二维数组静态初始化动态初始化 数组参数传递可变参数关于 main 方法的形参 argsArray 工具类sort 中的 comparable 和 comparatorcomparator 比较器排序comparable 自然排序 一维数组 线性结构 静态初始化 第一种:int[] a…

IDEA插件推荐-CodeGeex

功能:这个插件可以实现快速翻译代码,json文件格式转换,代码语言类型转换。 安装方式:File->Settings->Plugins->MarketPlace->搜索“CodeGeex”即可 (CodeGeex功能展示) (CodeGeex…

模拟算法讲解

模拟算法是一种基于实际情况模拟的算法,通过模拟现实世界中的系统或过程,来研究它们的性质和行为。模拟算法可以用于解决各种问题,包括物理模拟、经济模拟、社会模拟等。 模拟算法的基本步骤包括: 定义问题:明确需要模…

【STM32c8t6】AHT20温湿度采集

【STM32c8t6】AHT20温湿度采集 一、探究目的二、探究原理2.1 I2C2.1. 硬件I2C2.1. 软件I2C 2.2 AHT20数据手册 三、实验过程3.1 CubeMX配置3.2 实物接线图3.3 完整代码3.4 效果展示 四、探究总结 一、探究目的 学习I2C总线通信协议,使用STM32F103完成基于I2C协议的A…

android串口助手apk下载 源码 演示 支持android 4-14及以上

android串口助手apk下载 1、自动获取串口列表 2、打开串口就开始接收 3、收发 字符或16进制 4、默认发送at\r\n 5、android串口助手apk 支持android 4-14 (Google seral port 太老) 源码找我 需要 用adb root 再setenforce 0进入SELinux 模式 才有权限…

【数据结构导论】自考笔试题:伪代码练习题汇总 1

目录 一、开源项目推荐 二、线性表的基本运算在单链表上的实现 (1)初始化 (2)插入 p 指向的新结点的操作 (3)删除 *p 节点 三、循环链表 (1)在单链表中 (2&…

如何打包数据库文件

使用 mysqldump 命令: mysqldump -u username -p database_name > output_file.sql username 是数据库的用户名。database_name 是要导出的数据库名称。output_file.sql 是导出的 SQL 文件名,可以自定义。 示例: mysqldump -u root -p…

urfread刷算法题day1|LeetCode2748.美丽下标的数目

题目 题目链接 LeetCode2748.美丽下标对的数目 题目描述 给你一个下标从 0 开始的整数数组 nums 。 如果下标对 i、j 满足 0 ≤ i < j < nums.length &#xff0c; 如果 nums[i] 的 第一个数字 和 nums[j] 的 最后一个数字 互质 &#xff0c; 则认为 nums[i] 和 nums…

基于PyTorch设计的全景图合成系统【文末完整工程源码下载】

前言 本项目实现基于PyTorch将多张图片合成为一张全景图。&#xff08;图像存储路径为/images/1&#xff09;。 作者&#xff1a;阿齐Archie&#xff08;联系我微信公众号&#xff1a;阿齐Archie&#xff09; 使用的图片为&#xff1a; 合成后为&#xff1a; 这个全景图项目主…

支持WebDav的网盘infiniCloud(静读天下,Zotero 等挂载)

前言 WebDav是一种基于HTTP的协议&#xff0c;允许用户在Web上直接编辑和管理文件&#xff0c;如复制、移动、删除等。 尽管有一些网盘支持WebDav&#xff0c;但其中大部分都有较多的使用限制。这些限制可能包括&#xff1a;上传文件的大小限制、存储空间的限制、下载速度的限…

如何打造稳定、好用的 Android LayoutInspector?

速度极慢&#xff0c;遇到复杂的布局经常超时 某些情况无法选中指定的 View 本文将围绕 LayoutInspector 的痛点&#xff0c;分析问题并修复&#xff0c;最终将 LayoutInspector 变成一个稳定、好用的插件。 二、加速 Dump View Hierarchy 2.1 问题描述 开发复杂业务的同学…

Spring Boot + WebSocket 实现 IM 即时通讯

文章目录 1. 项目环境准备2. 配置WebSocket3. 创建消息处理器4. 创建消息类5. 创建前端页面6. 启动应用并测试7. 分析与扩展结论 &#x1f389;欢迎来到SpringBoot框架学习专栏~ ☆* o(≧▽≦)o *☆嗨~我是IT陈寒&#x1f379;✨博客主页&#xff1a;IT陈寒的博客&#x1f388;…