Elasticsearch:理解近似最近邻 (ANN) 算法

作者:来自 Elastic Elastic Platform Team

如果你是在互联网出现之前长大的,你会记得找到新喜好并不总是那么容易。我们是在无意中听到收音机里的新乐队时发现他们的,是因为忘了换频道偶然看到一个新电视节目的,也是几乎完全依据游戏封面的图片来找到新喜欢的视频游戏的。

如今,情况大为不同。Spotify 会向我推荐符合我的口味的艺术家,Netflix 会突出显示它知道我们会喜欢的电影和电视节目,Xbox 知道我们接下来可能想玩什么。这些推荐系统让我们更容易找到我们实际在寻找的东西,它们由最近邻(nearest neighbor - NN)算法驱动。NN 算法查看它可用的广泛信息海洋,并识别与你喜欢的东西或你正在寻找的东西最接近的东西。

但 NN 算法有一个固有的缺陷。如果它们分析的数据量太大,遍历每一个选项将永无止境。这尤其是问题,因为这些数据源每年都在变得越来越大。这就是近似最近邻(ANN)接过NN的接力棒并改变游戏规则的地方。

在本文中,我们将讨论关于 ANN 的以下关键主题:

  • ANN 的定义 
  • ANN 的工作原理
  • 何时使用 ANN 搜索
  • ANN 在向量搜索中的重要性
  • 各种类型的 ANN 算法

近似最近邻解释

近似最近邻(approximate nearest neighbor - ANN)是一种算法,它在数据集中找到一个非常接近给定查询点的数据点,但不一定是绝对最接近的一个。一个最近邻(NN)算法通过对所有数据进行详尽搜索来找到完美匹配,而近似最近邻(ANN)算法则会接受一个足够接近的匹配。

这听起来可能不是最好的解决方案,但实际上它是实现快速相似性搜索的关键。ANN 利用智能的快捷方式和数据结构来高效地遍历搜索空间。因此,它可以在大大减少时间和资源的情况下,识别出足够接近的数据点,在大多数实际场景中都是有用的。

基本上,这是一种权衡。如果你绝对需要找到最佳匹配,你可以通过 NN 来实现,但这会牺牲速度和性能。但是,如果你可以容忍精度的微小下降,ANN 几乎总是一个更好的解决方案。

近似最近邻(ANN)算法的

工作原理的第一部分是降维,其目标是将高维数据集转化为低维数据集。其目的是使预测模型任务比分析所有数据更简单、更高效。

这些算法基于数学概念的度量空间,其中数据点存在并且它们之间的距离被定义。这些距离必须遵循特定的规则(非负性、恒等性、对称性、三角不等式),常见的函数如欧几里得距离或余弦相似度用于计算它们。

为了更好地理解这一点,想象一下你在度假,正在寻找你租的别墅。与其逐一检查每栋建筑(高维),你可以使用地图,将问题简化为二维(低维)。(这是一个故意简化的例子。降维并不是 ANN 算法改善效率的唯一方法。)

ANN 算法还利用称为索引的巧妙数据结构来提高效率。通过将数据预处理成这些索引,ANN 可以更快地遍历搜索空间。可以将这些想象成街道标志,帮助你在地图上找到你的位置,更快地到达度假别墅。

何时使用近似最近邻搜索

在数据科学的快速发展世界中,效率至上。虽然找到真正最近的邻居(精确最近邻搜索)具有价值,但它常常需要较大的计算成本,正如我们已经讨论过的。这就是近似最近邻(ANN)搜索发光发热的地方,它提供了一个有吸引力的折衷方案:闪电般的速度与高但非绝对的准确性。

但是,确切地说,你应该在什么情况下选择 ANN 而不是其他搜索方法呢?

精确最近邻搜索可能很慢,但当精确度是你的首要任务或你正在使用小数据集时,它是最佳选择。k-nearest neighbors(kNN)位于 NN 和 ANN 之间,它在保持高准确性的同时提供更快的结果。但是,在决定k的值时可能难以准确把握,它也难以处理高维数据。

ANN 的速度和效率结合其高(但非绝对的)准确性,使其在许多情况下非常完美:

  • 大数据集:当处理百万甚至十亿级的数据点时,精确 NN 的详尽性质变得缓慢。ANN 在浏览庞大的数据景观中表现出色,迅速提供结果。
  • 高维数据:随着维度的增加,精确 NN 的计算量激增。ANN 的降维技术有效地缩小了搜索空间并提高了复杂数据(如图像或文本)的效率。
  • 实时应用:需要即时结果吗?推荐系统、欺诈检测和异常检测依赖于实时洞察。ANN 的速度使其非常适合这些场景。
  • 可接受的近似:如果你的应用可以容忍结果中的轻微不准确,ANN 的速度变得非常宝贵。例如,在图像搜索中,找到视觉上相似的图像 —— 而不是绝对最接近的一个 —— 可能就足够了。

ANN 在向量搜索中的重要性

向量搜索涉及将数据编码为密集向量,捕捉复杂的关系和嵌入式含义。这使得它非常适合搜索图像、文本和用户偏好等内容,而传统的基于关键词的搜索往往表现不佳。但是,维度诅咒也同样适用于这里。因为随着代表这些向量的维度数量增加,传统的搜索方法也会遇到困难,变得缓慢且低效。

ANN 通过将重点从寻找精确匹配转变为 “足够接近” 的匹配来解决了这个问题。这使得快速检索成为可能,你的向量搜索可以在庞大的数据集中快速找到相似的向量。它还提供了内置的可扩展性,因此你可以随意扩展数据集,而无需牺牲速度。

这些实时响应与提高的相关性和效率结合在一起,通常意味着 ANN 在释放向量搜索的真正潜力方面可能发挥着至关重要的作用。

近似最近邻算法的类型

虽然 ANN 的概念在搜索中提供了令人信服的速度优势,但实际上,这个术语涵盖了多种算法的多样化工具箱。它们都有各自的优势和权衡,了解这些细微差别在选择适合特定数据和搜索需求的正确工具时至关重要。

KD - trees

KD-trees 将数据点组织成分层树结构,根据特定维度对空间进行分区。这使得在低维空间和基于欧几里德距离的查询中能够进行快速高效的搜索。

但是,虽然 KD-trees 在低维空间中寻找最近邻时表现出色,但它们受到 “维度诅咒” 的影响。这是指随着维度数量的增加,点之间的距离会变得非常大。在这些高维空间中,KD-trees 基于单个轴进行分割的策略变得不再有效。这使得搜索需要检查大部分数据,失去了效率优势,并接近于简单线性扫描所有点的缓慢过程。

局部敏感哈希(locality-sensitive hashing - LSH)

LSH 是一种强大的 ANN 技术,通过将数据点 “哈希” 到较低维度的空间中,以一种巧妙地保留它们相似关系的方式进行工作。这种聚类使它们更容易被找到,并且使 LSH 能够在搜索大规模、高维度的数据集(如图像或文本)时表现出色,既具有速度又具有可扩展性。而且,在返回 “足够接近” 的匹配结果时,它仍能保持良好的准确性。但请记住,LSH 有时也可能产生误报(将非相似点视为相似),其有效性可能会根据距离度量和数据类型而有所不同。有各种各样的LSH家族专门设计用于处理不同的度量标准(例如欧几里德距离、Jaccard 相似性),这意味着 LSH 具有很强的通用性。

Annoy

Annoy(Approximate Nearest Neighbors Oh Yeah)并不是单一的算法,而是一个开源的 C++ 库,使用自己的算法来构建和查询树,而不是直接实现 LSH 或 KD-trees。它旨在实现在高维空间中的内存高效和快速搜索,适用于实时查询。实质上,它是一个提供了灵活性,适用于不同数据类型和搜索场景的用户友好接口。Annoy 的优势在于在一个平台上利用多种 ANN 方法,使你可以选择最适合你需求的方法。虽然它简化了流程,但请记住,在 Annoy 中选择正确的内部算法对于获得最佳性能至关重要,而其有效性仍取决于你的数据和准确性要求等因素。

线性扫描算法 - Liear scan algorithm

虽然通常不被分类为 ANN 技术,但值得一提的是线性扫描,因为它是一种蛮力方法,可以为你提供与其他 ANN 算法类似的结果。它按顺序迭代每个数据点,计算记录之间的距离并跟踪最佳匹配项。由于算法的简单性,它易于实现,适用于小数据集。基本方法的缺点是对于大数据集而言效率低下,在处理高维数据时速度慢,并且在实时应用中不实用。

选择合适的 ANN

在选择 ANN 之前,你应该考虑以下几点:

  • 数据集大小和维度:对于大型和高维数据,考虑使用局部敏感哈希;对于较小和低维数据,可以考虑使用 KD-trees。
  • 期望的准确度水平:如果绝对精确度至关重要,则线性扫描可能是最佳选择;否则,可以考虑 LSH 或 Annoy,以实现速度与准确度的平衡。
  • 计算资源:Annoy 提供了灵活性,但在选择其中的算法之前,请考虑内存和处理能力的限制。

记住,没有一种解决方案适用于所有情况。尝试不同的 ANN 算法,并评估它们在你特定数据上的性能,以找到最适合你向量搜索需求的完美匹配。除了这些选项之外,ANN 算法的世界不断发展,因此值得保持关注,以免错过可能改进你搜索的新内容。

ANN 是更好搜索的秘密武器

庞大而复杂的数据世界需要高效的工具来穿越其迷宫。这就是 ANN 可以成为将你的相似性搜索从普通提升到出色的秘密武器的地方。它提供了速度和可伸缩性,尽管在轻微准确度上有所妥协。而且,每周都有研究和发展工作,这将为 ANN 领域的动态性做出贡献。例如,量子计算和机器学习方面的进步可能会导致新型的 ANN 算法,这些算法甚至更快更高效。

我们已经探讨了不同的 ANN 算法,每种算法都有其独特的优势和劣势。但最终,最佳选择取决于你的具体需求。考虑数据大小、维度、准确度要求和资源等因素。进行实验,探索,并选择适合你的 ANN 算法,以充分发挥其潜力。从图像搜索到欺诈检测,这些算法可以产生巨大的影响,快速揭示隐藏的联系,并赋予数据驱动的洞察力。

因此,下次你搜索下一首歌曲、电影或视频游戏时,请记住幕后的默默英雄 —— ANN 算法 —— 它们连接着各种信息,产生联系。

接下来你应该做什么

当你准备好时,我们有四种方式可以帮助你利用你企业数据的洞察力:

  1. 开始免费试用,了解 Elastic 如何帮助你的业务。
  2. 参观我们的解决方案,了解 Elasticsearch 平台的工作原理以及我们的解决方案如何满足你的需求。
  3. 探索如何将生成式人工智能应用于企业。
  4. 将本文与你认识的可能感兴趣的人分享。通过电子邮件、LinkedIn、Twitter 或 Facebook 与他们分享。

原文:Understanding the approximate nearest neighbor (ANN) algorithm | Elastic Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/5735.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ClickHouse安装(成功安装)

1.下载安装包 下面通过阿里镜像(https://mirrors.aliyun.com/clickhouse/rpm/lts/)进行下载,下载哪里,自行指定。 # deb包下载使用如下4行 wget https://mirrors.aliyun.com/clickhouse/deb/pool/stable/clickhouse-client_22.8…

git 的迁移

现象是gitlab经常会挂掉,linux会显示磁盘空间不足,实际上,我们linux某个目录的空间是4T。这个空间应该是足够的。猜测是gitlab的安装目录不对导致的空间不足。 1、查找原因 用rpm 安装gitlab会有自己的目录,很多安装文件会在opt…

MySql 导出导入(备份还原)

1,导出备份 要导出MySQL数据库中的数据,使用mysqldump命令。假设要导出名为mydatabase的数据库到名为backup.sql的文件中: mysqldump -u 用户名 -p 数据库名 > backup.sql 参数说明: -u mysql用户名称 -p 执行后会要求输入…

【C++】学习笔记——string_4

文章目录 六、string类7. string类的模拟实现 未完待续 六、string类 7. string类的模拟实现 我们在上文简单实现了string类的构造函数。不知道大家有没有发现一个问题,我们在进行实现无参的构造函数时,初始化列表将 _str 初始化为 nullptr 了&#xf…

Unity LensFlare 入门

概述 在项目的制作过程中,太阳光的使用一定是不可缺少的部分,但是如果想实现真实太阳光眼睛看到的镜头炫光效果,那这部分的内容一定不要错过喔,接下来让我们来学习这部分的内容吧! Hale(光环效果) Color:…

操作系统:线程

目录 前言: 1.线程 1.1.初识线程 1.2.“轻量化”进程 1.3.线程与进程 2.线程控制 2.1.pthread原生线程库 2.2.线程控制的接口 2.2.1.线程创建 2.2.线程退出|线程等待|线程分离|线程取消 2.3.pthread库的原理 2.4.语言和pthread库的关系 2.5.线程局部…

数据可视化宝典:Matplotlib图形实战

在数据分析领域,图形化展示数据是非常重要的环节。Python中的matplotlib库是绘制各类图形的强大工具。本文将介绍如何使用matplotlib绘制折线图、直方图、饼图、散点图和柱状图等数据分析中常见的图形,并附上相应的代码示例,可以当初matplotl…

模型智能体开发之metagpt-单智能体实践

需求分析 根据诉求完成函数代码的编写,并实现测试case,输出代码 代码实现 定义写代码的action action是动作的逻辑抽象,通过将预设的prompt传入llm,来获取输出,并对输出进行格式化 具体的实现如下 定义prompt模版 …

神经网络与深度学习--网络优化与正则化

文章目录 前言一、网络优化1.1网络结构多样性1.2高维变量的非凸优化1.鞍点2.平坦最小值3.局部最小解的等价性 1.3.改善方法 二、优化算法2.1小批量梯度下降法(Min-Batch)2.2批量大小选择2.3学习率调整1.学习率衰减(学习率退火)分段…

Android数据恢复软件快速比较:Android数据恢复的7最佳工具

您在 Android 设备上保留哪些类型的数据?如果您和大多数人一样,那么您可能已经列出了文档、照片、视频和音频文件。如果您使用智能手机或平板电脑的时间足够长,我们愿意打赌您拥有Android数据丢失的第一手经验。 幸运的是,我们也…

打破失联困境:门店如何利用AI智能名片B2B2C商城小程序重构与消费者的紧密连接?

在如今这个消费者行为日益碎片化的时代,门店经营者们时常感叹:消费者进店如同一场不期而遇的缘分,然而一旦离开门店,就仿佛消失在茫茫人海中,难以再觅其踪迹。这种“进店靠缘分,离店就失联”的困境&#xf…

Cisco IOS XE Web UI 权限提升漏洞复现(CVE-2023-20198)

0x01 产品简介 Web UI 是一种基于GUI的嵌入式系统管理工具,能够提供系统配置、简化系统部署和可管理性以及增强用户体验。它带有默认映像,因此无需在系统上启用任何内容或安装任何许可证。Web UI 可用于构建配置以及监控系统和排除系统故障,而无需CLI专业知识。 0x02 漏洞…

Codeforces Round 941 (Div. 2) D. Missing Subsequence Sum

题目 思路&#xff1a; #include <bits/stdc.h> using namespace std; #define int long long #define pb push_back #define fi first #define se second #define lson p << 1 #define rson p << 1 | 1 const int maxn 1e6 5, inf 1e18, maxm 4e4 5; c…

翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习三

合集 ChatGPT 通过图形化的方式来理解 Transformer 架构 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习一翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深…

java-spring-mvc(服务端接收客户端传参)

目录 &#x1f3af; 服务端接收参数 ✨HttpServletRequest接收 ✨ 声明参数接收 ✨声明pojo类来接收 &#x1f52a;小试牛刀 &#x1f3af; 服务端接收参数 ✨HttpServletRequest接收 HttpServletRequest是Java Servlet规范中定义的一个接口&#xff0c;它提供了与HTTP请求…

解决Redis的键值前出现类似\xAC\xED\x00\x05t\x00*这样的字符序列

文章目录 1.问题2.解决方法3.StringRedisTemplate和RedisTemplate的区别 1.问题 在使用RedisTemplate对Redis进行操作时,发现Reids键值对前有\xAC\xED\x00\x05t\x00*这样的字符序列 如图所示: 虽说不影响使用,但是听影响观感的 2.解决方法 查找了很多方法,可以指定RedisTem…

用户中心(下)

文章目录 计划登录逻辑接口简单说明cookie和session写代码流程后端逻辑层控制层测试用户管理接口 前端简化代码对接后端代理 计划 开发完成后端登录功能 &#xff08;单机登录 > 后续改造为分布式 / 第三方登录&#xff09;✔开发后端用户的管理接口 &#xff08;用户的查询…

基于EO平衡优化器算法的目标函数最优值求解matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于EO平衡优化器算法的目标函数最优值求解matlab仿真。提供九个测试函数&#xff0c;分别对九个测试函数仿真输出最优解以及对应的优化收敛曲线。 2.测试软件版…

树莓派点亮LED灯

简介 使用GPIO Zero library 的 Python库实现点亮LED灯。接线 树莓派引脚参考图如下&#xff1a; LED正极 接GPIO17 LED负极 接GND 权限 将你的用户加到gpio组中&#xff0c; 否则无法控制GPIO sudo usermod -a -G gpio 代码 from gpiozero import LED from time impor…

ES全文检索支持拼音和繁简检索

ES全文检索支持拼音和繁简检索 1. 实现目标2. 引入pinyin插件2.1 编译 elasticsearch-analysis-pinyin 插件2.2 安装拼音插件 3. 引入ik分词器插件3.1 已有作者编译后的包文件3.2 只有源代码的版本3.3 安装ik分词插件 4. 建立es索引5.测试检索6. 繁简转换 1. 实现目标 ES检索时…