Elasticsearch:向量搜索的优势 — 以及 IT 领导者需要它来改善搜索体验的 5 个原因

作者:Evan Castle

与谷歌和亚马逊等高质量搜索引擎的频繁互动提高了客户对快速且相关搜索的期望。 向量搜索(也称为语义向量搜索)利用深度学习和机器学习来捕获数据的含义和上下文。

向量搜索的好处

向量搜索可以增强公司的搜索体验并带来广泛的好处,包括:

  • 以更少的努力向你的用户提供高度相关的结果
  • 即使数据量大且多样化,也能快速返回搜索结果
  • 启用新类别的文本、图像和音频搜索
  • 直接向客户提供更准确的产品推荐、常见问题解答,甚至个性化服务

对于技术领导者,请了解有关向量搜索的更多信息以及它如何帮助你不仅满足而且超越客户的期望。 它可以帮助改变你的搜索体验并帮助你实现业务目标。

那么,什么是向量搜索?

向量搜索将文本、音频和图像转换为数字表示,并利用深度学习和机器学习 (ML) 来解释这些表示的含义、意图和上下文,以提供更相关的搜索结果。

语义向量搜索启动新的搜索类别

无论我们如何编写搜索查询,我们都期望获得高度相关的搜索结果。 但即使是抽象的关键字搜索仍然需要高度的自然语言理解和极快的响应时间。 除此之外,人们还渴望获得更广泛的搜索体验 —— 从视觉购物的图像搜索、Amazon Alexa 等音频搜索,或者 Pinterest 等应用内视觉推荐 —— 很明显,搜索需要适应我们寻找事物的方式。

语义向量搜索技术更能理解人类语言,可以解释不同的数据格式,如视觉、音频和非结构化文本。 它充当非结构化数据和用户意图(不仅仅是他们的关键字)解释之间的桥梁,以提供不仅满足甚至可能超出预期的强大体验。

Elastic 是一个功能丰富的环境,用于创建各种搜索解决方案。 将语义搜索方面结合到解决方案中的能力是搜索发展的关键,而 Elastic 在这方面处于有利位置。

- Prem Malhotra,思科 ML/AI 和搜索总监

Elasticsearch Relevance Engine™ - Build Generative AI search engines and applications | Elastic

向量搜索可以推动实际收入

向量搜索已被广泛用于提高相关性、促进销售和增加收入。

Spotify 如何利用向量搜索

Spotify 并不总是对播客(podcasts)使用向量搜索。 不久前,Spotify 主要依赖关键词术语匹配。 此搜索方法将返回包含其索引元数据中具有查询关键字的所有内容的结果。 但用户并不总是准确地输入他们想要的内容。 他们通常不知道使用哪些术语或以非常不同的方式表达自己。

通过匹配语义相关的结果,向量搜索使 Spotify 能够以更少的精力提供更相关的内容,而不需要精确的单词匹配。 例如,搜索 “electric cars climate impact” 现在会返回 “electric cars and ecology” 或 “environmental impact of electric vehicles” 的结果。 语义向量搜索可以识别术语 “climate” 和 “ecology” 或 “electric car” 和“electric vehicle” 的相似性,而不需要搜索工程师或用户做任何事情。

Home Depot 如何通过语义向量搜索提供更相关的搜索结果

家得宝 (Home Depot) 拥有超过 200 万种产品的库存清单,其中包括高度专业化的工具。 客户很难找到合适的工具来满足他们的需求,这常常导致多次尝试和挫折,并增加了家得宝的回报。 实施语义向量搜索使他们能够通过组合向量和文本搜索向客户提供更相关的结果。

例如,当客户搜索关键字 “roofing supplies” 时,它也会返回木瓦 (shingles)。 这使得家得宝搜索团队不再需要将创意产品描述、区域差异和拼写错误的关键字加载到搜索索引中。

详细了解自然语言处理 (NLP),即向量搜索背后的技术。

无论你的公司规模如何,都可以实施向量搜索

向量搜索可用于广泛的用例。 无论你的公司规模大小或拥有多少数据,如果你使用正确的工具,向量搜索都可以帮助你改善搜索体验。 使用向量搜索可以帮助你实现:

更好的相关性以推动更好的参与

向用户提供更有用的结果可以提高你网站和应用程序的参与度。 当单词可能具有多种含义或不明确时,基于关键字的搜索效果不佳。 即使在非常大的数据集上,语义向量搜索也能提供更精确的结果。 它利用语义搜索技术返回相关结果,即使用户不知道确切的关键字也是如此。

即使在大数据量上也能实现更快的性能

向量搜索可以与传统搜索评分相结合,以获得更好的搜索体验。 即使在更大的数据集上,这也能更快地提供更相关的结果。 最近邻和近似最近邻等算法利用有效的方法来处理和排序大量文档以进行搜索查询。

扩展搜索类别

使用向量搜索引擎(称为向量数据库、语义或余弦搜索)启用图像或音频等新型搜索。 例如,电子商务企业可以允许网站访问者上传裙子等产品的图片并搜索类似的商品。 这为一些购物者创造了参与度和更简单的搜索方式。

假设一名员工正在寻找领导力课程。 通过 Elastic Enterprise Search 中的向量搜索,我们可以更好地了解用户的意图,并返回针对其行业、组织和角色量身定制的课程。

- Jon Ducrou,Go1 工程高级副总裁

语义向量搜索解释搜索的上下文、意图和含义,因此你的客户无需

语义向量搜索通过确定查询的意图、含义和上下文来实现更大的相关性。 这是通过将搜索查询转换为有意义的数字表示或向量来完成的,将其与数据集进行比较以测量相似性并找到最相关的结果。 为了做出明智的决策,技术领导者需要对向量搜索有高水平的技术理解,需要了解三个组成部分。

  1. 通过向量嵌入将文本转换为数字:任何算法都需要数字才能工作。 向量将关键字文本转换为捕获文本语言内容的数字数据。 例如,两个广泛使用的模型 —— Word2Vec 和 BERT —— 是通过分析大量语言数据样本创建的,以了解单词共现的频率和单词之间的关系。 因此,“Canada” 的向量可能在一个方向上接近 “France”,而在另一个方向上接近 “Toronto”。 这些模型使我们能够将关键字、句子或段落转换为可以比较的向量嵌入。
  2. 使用更好的搜索算法更快地搜索:向量搜索的另一个重要组成部分是高性能算法,即使在比较数十亿个文档时也可以快速比较并返回相关结果。 这可以包括近似最近邻 (ANN),它是邻近搜索的一种形式,用于查找给定集合中与给定查询最接近(最相似)的结果。 人工神经网络高效运行,可扩展到大型数据集,同时保持性能。 为了提高查询速度,会生成一个图表来导航所有数据点并将向量快速映射到最相似的匹配结果。
  3. 使用距离度量发现相似的结果:向量可以为每个关键字分配一组不同的坐标,通过测量搜索词出现在一起的距离来评估查询和文档之间的相似性。 向量之间的距离越短,内容越相似。 余弦相似度等度量用于确定两个数字和向量序列之间的相似度,以返回最相似的结果。

如何快速获得向量搜索引擎的所有优势

虽然某些解决方案可能承诺增强搜索体验,但 Elastic 被誉为搜索驱动技术的领导者。 我们的客户能够使用 Elastic 平台快速体验到好处,并通过向量搜索等新的创新功能不断完善他们的搜索体验。

为什么使用 Elastic 进行向量搜索?

在 Elastic,我们提供了一个简单的部署路径来实施矢量搜索和混合搜索,以便你可以立即开始增强你的搜索体验。 这是因为我们的向量搜索结合了多种搜索相关性的方法,为你提供 Elastic 的所有优势(性能、简单性和定制)以及向量搜索的强大功能。

你可以部署向量搜索来解决搜索体验中的最大差距。

Elastic 对大量文档的查询性能更快。 为了提高查询速度,Elastic 使用生成的图表来导航所有数据点并将向量快速映射到最相似的匹配结果。 这种向量相似性搜索方法使用称为分层可导航小世界 (HNSW) 的 ANN 算法。 为了加速查询性能,支持多层 HNSW,使你可以更快地遍历图形。 新层优化了查询路由,因为每个附加的较高层具有较少的数据点,需要在较大距离的数据点之间进行较少的跳数才能找到最近的邻居。

Elastic 提供了简单、集成的端到端解决方案。 正如我们之前讨论的,语义向量搜索需要输入向量嵌入来确定相似性。 大多数解决方案需要外部过程来生成向量嵌入,例如,对于可能是深度神经网络但不是 Elastic 的文本。 Elastic 向量搜索的优势在于创建对向量嵌入的支持非常容易。

这是通过密集向量字段类型实现的,该类型存储浮点值的密集向量,可用于通过 Elastics kNN 搜索 API 快速查找相似结果。 这简化了实现并允许你更轻松地生成向量。 团队可以立即体验到价值。 此外,你还可以利用 Elastic 作为向量进行分发、计算和扩展,从而提高性能并降低成本。

Elastic 按你的方式工作 — 根据你的需求进行定制。 Elastic 支持 PyTorch,它使你可以完全控制部署自己的模型。 你可以根据你的特定需求或行业对其进行定制,以提供竞争优势。 Elastic 还通过 HuggingFace 提供开箱即用的模型,作为快速启动选项,利用不断增长的领先语言模型社区。

更好的搜索对你的业务有好处

不断增长的客户需求使得提供出色的搜索体验成为必须。 幸运的是,语义向量搜索是一种进化技术,可以提供卓越的搜索体验。 无论是新类型的搜索、更快的结果、更高的相关性还是个性化 — Elastic 都可以帮助你交付。 要继续你的旅程,请使用我们的技术博客了解如何通过向量搜索真正产生影响。

原文: The benefits of vector search — and 5 reasons IT leaders need it to improve search experiences | Elastic Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/202661.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一次重新加载所有 maven 项目产生的 OOM

1、解决什么问题? 忘了截图了,用文字描述就是由于Reload All Maven Projects导致的 OOM 异常。 2、尝试与解决 2.1、尝试 2.1.1、尝试清理idea缓存(无效) 2.1.2、重启idea(无效) 2.1.3、重启电脑&am…

nginx遇到的问题和jks密码问题

1:nginx的配置: https 一定得配置 8080 ssl (我没有配置这个) 2:查看jks的密码 keytool -list -keystore secms.jks 让输入密码

锂电分切机常见故障及预测性维护解决方案

锂电分切机是电池生产线上不可或缺的设备,通过切割锂电池以满足不同应用需求。但在实际生产的使用过程中,常常会遇到一些故障,影响设备的正常运行和生产效率。为了减少这些故障对设备的影响,预测性维护成为制造商需要重视的解决方…

Linux动态库常见问题

1.编译好库后,应用程序调用,路径明明写对了,但是编译的时候却显示xxx未定义 2.编译好了却说不能打开动态库,没有此文件 ./jrtplib_test: error while loading shared libraries: libjrtp.so.3.11.2: cannot open shared object f…

python初始化矩阵相关

做算法题经常需要初始化一个二维的dp数组 下面两种方法是最常用的 matrix [[0]*n]*n matrix [[0]*n for _ in range(n)]以前经常混用也没发现什么问题,直到昨天debug的时候发现第一种初始化之后对矩阵进行赋值时混乱的,比如matrix[0][1]2会导致所有行…

C语言面试之旅:掌握基础,探索深度(面试实战之单片机——IO)

梦想和自由一样,都有代价,但都值得。 ----小新 引言 单片机是一种微控制器,它包含一个处理器、存储器、定时器和I/O端口等。I/O端口是单片机与外部设备进行通信的接口。通过I/O端口,外部设备可以输入和输出数据到单片机中。 在单…

西工大计算机学院计算机系统基础实验一(函数编写1~10)

还是那句话,千万不要慌,千万不要着急,耐下性子慢慢来,一步一个脚印,把基础打的牢牢的,一样不比那些人差。回到实验本身,自从​​​​​​按照西工大计算机学院计算机系统基础实验一(…

YOLOv8改进 | TripletAttention三重注意力机制(附代码+机制原理+添加教程)

一、本文介绍 本文给大家带来的改进是Triplet Attention三重注意力机制。这个机制,它通过三个不同的视角来分析输入的数据,就好比三个人从不同的角度来观察同一幅画,然后共同决定哪些部分最值得注意。三重注意力机制的主要思想是在网络中引入…

C陷阱与缺陷——第6章 预处理器

在严格意义上的编译过程开始之前,C语言预处理器首先对程序代码做了必要的转换处理。预处理器的主要作用是: 我们有时需要将某个特定数量在程序中出现的所有实例统统加以修改大多数C语言实现在函数调用时都会带来重大的系统开销 1. 不能忽视宏定义中的空…

Kontakt v7.7.2(音频采样器)

Native Instruments Kontakt 7是一款强大的软件采样器,它允许用户从各种来源采样音频并进行编辑和处理。它包含大量预设采样库,包括乐器、合成器、鼓组和声音效果等。此外,Kontakt 7还允许用户创建自己的采样库,以便根据自己的需要…

电脑版的便签软件使用哪一款?

您会选择使用电脑便签软件吗?很多人在日常工作及生活中会选择用电脑便签来督促自己按时完成工作任务,而且选择电脑便签是一个难题,毕竟当前电脑便签类工具非常多,如果想要找一款功能比较强大且又简单易用的便签工具,那…

HarmonyOS学习--创建和运行Hello World

创建和运行Hello World 打开DevEco Studio,在欢迎页单击Create Project,创建一个新工程。根据工程创建向导,选择创建Application应用或Atomic Service元服务。选择“Empty Ability”模板,然后单击Next。关于工程模板的介绍和支持…

A股股票交易费用

A股股票交易费用如下: 经手费:(上证/深证)按成交额双边收取0.0487‰,交给交易所。 监管费:(深证)按成交额双边收取0.02‰,交易所代收,交给证监会。 证管费&…

QGraphicsView实现简易地图7『异步加载-多瓦片-无底图』

前文链接:QGraphicsView实现简易地图6『异步加载-单瓦片-无底图』 前一篇文章提到的异步单瓦片加载,是指线程每准备好一个瓦片数据后,立刻抛出信号让主线程加载。而本篇异步多瓦片加载是指线程准备好所有瓦片数据后,一起抛出信号让…

将文件夹中所有文件名取出

dir C:\Users\是啊\Desktop\实验五/b>C:\Users\是啊\Desktop\1111.xls C:\Users\是啊\Desktop\实验五(这个是文件夹路径) /b (参数) C:\Users\是啊\Desktop\1111.xls(文件名输出的文件路径)

用VR+科普点亮科技之光VR航天科普体验巡展

11月22日至26日,第十一届中国(绵阳)科技城国际科技博览会圆满闭幕。本届科博会以“科技引领创新转化开放合作”为主题,创新办展办会模式,搭建高能级科技合作交流平台,展示了国内外科技创新发展成就和最新成果,举办了多…

内核无锁队列kfifo

文章目录 1、抛砖引玉2、内核无锁队列kfifo2.1 kfifo结构2.2 kfifo分配内存2.3 kfifo初始化2.4 kfifo释放2.5 kfifo入队列2.6 kfifo出队列2.7 kfifo的判空和判满2.8 关于内存屏障 1、抛砖引玉 昨天遇到这样一个问题,有多个生产者,多个消费者&#xff0c…

【从零认识ECS云服务器 | 快速上线个人网站】二、使用ECS云服务器

第二章 使用ECS 2.1 获取ECS 方式一:通过试用中心免费领取ECS实例 满足以下全部条件的阿里云用户,可免费试用云服务器ECS: 阿里云注册会员用户并完成阿里云企业认证或个人认证用户。申请用户是云服务器ECS产品的新用户,可以申…

查询不用order by时结果默认怎么排序

总结: 如果在使用没有指定order by,那么基本上依赖于底层实现的,具体排序规则不定,所以排序的顺序也不固定,可能会随着时间发生变化。 在实际工作中,如果有查询列表展示数据的功能和需求,开发前一定要先确…

Linux 进程地址空间

文章目录 进程地址空间进程地址空间结构页表虚拟内存写时拷贝 进程地址空间 进程地址空间难以定义,因为它更像是一个中间件。 程序从磁盘中加载到内存,程序的执行需要硬件资源,所以每个程序启动时会创建至少一条进程,进程作为组…