ES入门六:Suggesters Api实践

都是负担在很多app上,当我们输入某些内容时候,它会立即做一些补全操作,
image.png
如果我想实现上述的需求,我们就可以使用ES提供的Suggesters Api。那Suggesters是如何做到的那?简单来说,Suggesters会将输入的文本拆分为token(token就是根据规则切分文本后一个个词),然后在索引里面查找相似的Term,根据使用场景不同,ES提供了以下4种Suggester:

  1. Term Suggester:基于单纯的纠错补全
  2. Phrase Suggester:基于短语的纠错补全
  3. Completion Suggester:自动补全单词,输入词语的前半部分,自动补全单词
  4. Context Suggester:基于上下文的补全提示,可以实现上下文感知推荐

Term Suggester

Term Suggester 提供了**基于单词的纠错、补全功能,其工作原理是基于编辑距离(edit distance)来运作的,编辑距离的核心思想就是一个词需要改变多少个字符就可以和另外一个词一致。所以如何一个词转换为原词所需要改动的字符数越少,它越有可能是最佳匹配。比如,**linux和linux,为了吧linux转变为linux需要改变一个字符“v”,所以其编辑距离为1

Term Suggester工作的时候,会将输入的文本切分成一个个单词(我们称之为token),然后根据每个单词提供建议,所以其不会考虑输入文本间各个单词的关系。
先来一个示例:

image.png
如上图所示:用户搜索了“kernel architture”,其中“architture”是错误的拼写。Suggester Api需要在“suggest”块中指定参数:

  • “my_suggest”: 这个是我们自定义的名称
  • “text”:指定了需要产生建议的文本,一般是用户的输入内容
  • “term”: 表示使用的是Term Suggester Api,如果是Phrase Suggeseter用的是’phrase’
  • “suggest_mode”: 设置建议的模式
    • missing:如果索引中存在就不进行建议,默认
    • popular: 推荐出现频率更高的词
    • always:不管是否存在,都进行建议
  • “field”: 指定从哪个文档上获取建议,上例中,是从书名(name)中获取建议
  • “analyzer”: 指定分词器来对输入文本进行分词,默认与fileld指定的字段设置的分词器一样
  • “size”: 为每个单词提供的最大建议数
  • “sort”: 建议结果排序的方式,有以下两个选项
    • score:先按相似性得分排序,然后按文档频率排序,最后按词项本身(字母顺序的等)排序。
    • frequencry: 先按文档频率排序,然后按相似性得分排序,最后按词项本身排序

返回结果:
image.png

从返回结果可以看出,对于每个词语的建议结果,放在了 “options”数组中。如果一个词语有多个建议,那么就按照sort参数指定的方式进行排序。实例中,由于“kernel”这个词是存在的,并且 suggest_mode为“missing”,所以不进行建议,其options为空

Phrase Suggester

Term Suggester产生的建议是基于每个单词的,如果想要对整个短语或者一句话建议,Term Suggester就有点无能为力了,所以我们就会使用Phrase Suggester Api来获取与用户输入相似的内容

Phrase Suggester在Term Suggester的基础上增加了一些额外的逻辑,因为是短语形式的建议,所以会考量多个Term间的关系,比如相邻的程度、词频等。
下面是一个示例:
image.png
返回结果:
image.png
这个就比较简单,定义了使用Phrase使用的建议字段为name,返回结果里面options 返回了一个短语列表,并且因为“history”和“time”在一个文档里出现过,其可信度相对于其他来说更高,所以得分更高。因为我们使用“highlight”选项,所以返回结果中被替换的词语会高亮显示

Phrase Suggester还有其他一些参数:

  • max_error:指定最多可以拼写错误的词语的个数
  • confidence:其作用用来控制返回结果条数的,如果用户输入的数据的得分为N,那么返回结果的得分需要大于N * confidence。confidence默认值为1.0
  • highlight:高亮后被修改后的词语

Completion Suggester

Completion Suggester提供了自动补全的功能,其应用场景是用户每输入一个字符就需要返回匹配的结果给用户。在并发量大、用户输入速度快的时候,对服务的吞吐量来说是个不小的挑战。所以Completion Suggester不能像上面的Suggester Api那样简单通过倒排索引实现,比如使用其他高效的数据结构和算法才能满足要求

Completion Suggester在实现的时候会将analyze(将文本分词,并且去除没用的词语,例如is、at这种词语)后的数据结构,构建为FST并且和索引存放在一起。FST(finite-state transducer)是一种高效的前缀查询索引,由于FST天生为前缀查询而生,所以其非常适合实现自动补全的功能。ES会将整个FST加载到内存中,所以在使用FST进行前缀查询的时候效率是非常高效的。

在使用Completion Suggester前需要定义Mapping,对应的字段需要使用“completion” type。下面我们来构建一个新的books_completion索引,其Mapping和测试数据如下:

PUT books_completion
{"mappings": {"properties": {"book_id": {"type": "keyword"},"name": {"type": "text","analyzer": "standard"},"name_completion": {"type": "completion"},"author": {"type": "keyword"},"intro": {"type": "text"},"price": {"type": "double"},"date": {"type": "date"}}},"settings": {"number_of_shards": 3,"number_of_replicas": 1}
}PUT books_completion/_doc/1
{"book_id": "4ee82462","name": "Dive into the Linux kernel architecture","name_completion": "Dive into the Linux kernel architecture","author": "Wolfgang Mauerer","intro": "The content is comprehensive and in-depth, appreciate the infinite scenery of the Linux kernel.","price": 19.9,"date": "2010-06-01"
}PUT books_completion/_doc/2
{"book_id": "4ee82463","name": "A Brief History Of Time","name_completion": "A Brief History Of Time","author": "Stephen Hawking","intro": "A fascinating story that explores the secrets at the heart of time and space.","price": 9.9,"date": "1988-01-01"
}PUT books_completion/_doc/3
{"book_id": "4ee82464","name": "Beginning Linux Programming 4th Edition","name_completion": "Beginning Linux Programming 4th Edition","author": "Neil Matthew、Richard Stones","intro": "Describes the Linux system and other UNIX-style operating system on the program development","price": 12.9,"date": "2010-06-01"
}

来个示例:
image.png
返回结果:
image.png

如上示例,在“my_suggest”中,“prefix”指定了需要匹配的前缀数据,“completion”中的“fileld”指定了需要匹配文档的哪个字段,返回结果中的“options”包含了整个文档的数据

需要注意的是,Completion Suggester在索引数据的时候经过了analyze阶段,所以使用不同的analyzer会造成构建FST的数据不同,例如某些词(is、at等)被去除、某些词被转换等。

Context Suggester

Context Suggster是Completion Suggeseter的扩展,可以实现上下文感知推荐。列入当我们在编程类型的数据中查询“liun”的时候,可以返回linux编程相关的书籍,但在任务自传类型的书籍中,将会返回linus的自传。要实现这个功能,可以在文档中加入分类信息,帮助我们做精准推荐

ES支持两种类型的上下文:

  • Category:任意字符串的分类
  • Geo:地理位置信息

下面我们看看如何基于任意字符串的分类来做上下文推荐。同样,在使用Context Suggester前,首先要创建mapping,然后在数据中加入相关的 Context 信息。下面是使用 Context Suggester 时的 Mapping:

#删除原来的索引
DELETE books_context# 创建用于测试 Context Suggester 的索引
PUT books_context
{"mappings": {"properties": {"book_id": {"type": "keyword"},"name": {"type": "text","analyzer": "standard"},"name_completion": {"type": "completion","contexts": [{"name": "book_type","type": "category"}  ]},"author": {"type": "keyword"},"intro": {"type": "text"},"price": {"type": "double"},"date": {"type": "date"}}},"settings": {"number_of_shards": 3,"number_of_replicas": 1}
}# 导入测试数据
PUT books_context/_doc/4
{"book_id": "4ee82465","name": "Linux Programming","name_completion": {"input": ["Linux Programming"],"contexts": {"book_type": "program"}},"author": "Richard Stones","intro": "Happy to Linux Programming","price": 10.9,"date": "2022-06-01"
}PUT books_context/_doc/5
{"book_id": "4ee82466","name": "Linus Autobiography","name_completion": {"input": ["Linus Autobiography"],"contexts": {"book_type": "autobiography"}},"author": "Linus","intro": "Linus Autobiography","price": 14.9,"date": "2012-06-01"
}

如上所示的Mapping中,其中“name_completion”的类型还是为“completion”,在“context”中有2个字段,其中“type”为上下文的类型,就是上面说的Category和Geo,本例子中使用了Category。而“name”则为上下文的名称, 本例子为“book_type”

导入的数据中,“name_completion”中的“input”字段用于内容匹配。“book_type”的值有多个,“program”是编程类的,“autobiography”是自传类的

我们拿一个案例试一下;
image.png

返回的结果数据:
image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/719347.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【网站项目】167固定资产管理系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

谁才是“内卷”之王?众多洗地机品牌哪家清洁力最强?清洁最干净?

在如今快节奏的生活中,家庭清洁工作愈发显得繁琐而耗时。添可洗地机凭借其高效的一体化清洁功能和智能化操作,为现代家庭生活带来了极大的便利。面对众多款品牌洗地机型号,消费者不禁会问:哪家洗地机清洁力最强?在性能…

解决tomcat双击startup.bat一闪而过的问题

这种问题可能是tomcat找不到你的jdk环境配置路径 1、首先在tomcat的bin文件夹找到startup.bat 和catalina.bat两个文件 2、startup.bat用记事本打开 在末尾添加pause 3、保存修改,双击startup.bat如果出现这种问题,就是找不到jdk路径 4、用记事本打开ca…

STM32CubeMX实战教程: TIM6、TIM7 - 基本定时器

目录 一、基本定时器的作用 二、常用型号的TIM时钟频率 三、CubeMX配置 四、编写执行代码 一、基本定时器的作用 基本定时器,主要用于实现定时和计数功能。作用包括: 定时功能:可以产生周期性的中断,用于实现定时任务。例如&…

什么是Docker容器?

Docker是一种轻量级的虚拟化技术,同时是一个开源的应用容器运行环境搭建平台,可以让开发者以便捷方式打包应用到一个可移植的容器中,然后安装至任何运行Linux或Windows等系统的服务器上。相较于传统虚拟机,Docker容器提供轻量化的…

linux安装mysql5.7

linux安装mysql5.7 一、下载mysql5.7二、解压包介绍三、上传包到linux四、卸载mariadb五、安装mysql六、修改权限七、启动mysql八、使用过navicat创作不易,笔记不易,如觉不错,请三连,谢谢~~ 一、下载mysql5.7 去mysql官方下载&am…

MES系统在离散制造企业中的功能解析

随着信息技术的快速发展和制造业的转型升级,MES在离散制造企业中的作用日益凸显。MES系统不仅提高了生产效率和产品质量,还优化了资源配置,增强了企业的市场竞争力。 一、生产管理功能 MES系统能够实时监控生产现场的各种数据,包…

二叉搜索树题目:将有序数组转换为二叉搜索树

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法证明代码复杂度分析 题目 标题和出处 标题:将有序数组转换为二叉搜索树 出处:108. 将有序数组转换为二叉搜索树 难度 4 级 题目描述 要求 给定整数数组 nums \texttt{nums}…

15 easy 141. 环形链表

法1:快慢指针法: //给你一个链表的头节点 head ,判断链表中是否有环。 // // 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,评测系统内部使用整数…

Python爬虫副业真的可行吗?

首先回答你,是可行的,python爬虫能当副业,副业的方式比较多,等下我会讲几种。 那学到哪个层次可以接单呢?主要看你是接什么样的单,爬一些资料,视频这种简单的学一两个月就没什么问题&#xff0…

第一天 走进Docker的世界

第一天 走进Docker的世界 介绍docker的前世今生,了解docker的实现原理,以Django项目为例,带大家如何编写最佳的Dockerfile构建镜像。通过本章的学习,大家会知道docker的概念及基本操作,并学会构建自己的业务镜像&…

一文读懂Persistence One- 如何将Restaking带入Cosmos

Persistence One正在将Restaking引入Cosmos。用户将能够通过pSTAKE、Stride、Quicksilver和Milkyway将Liquid Staked Tokens(如ATOM、TIA、DYDX等)存入Persistence One,对其进行Restaking,从而安全地连接更多区块链,首…

MySQL:数据库中有哪些锁

1、全局锁 加上全局锁后整个数据库就处于只读状态了,这时其他线程执行以下操作,都会被阻塞: 对数据的增删改操作,比如 insert、delete、update等语句;对表结构的更改操作,比如 alter table、drop table 等…

Android APK包反编译为java文件教程

方法 流程: test.apk -> smali文件 -> dex文件 -> jar文件 ->java 文件 将APK包解压为 smail文件 下载 apktool工具 apktool.jar 将 test.apk 和 apktool.jar放同一目录下,并执行以下命令 java -jar apktool.jar d -f xxx.apk -o xxx(解…

【如何像网吧一样弄个游戏菜单在家里】

GGmenu 个人家庭版游戏、应用管理 桌面图标管理器

[环境配置]ssh连接报错“kex_exchange_identification: read: Connection reset by peer”

已经被VScode ssh毒死好几次了,都是执行命令意外中断,然后又VSCode里连不上、本机Terminal也连不上了。。。 重启远程服务器,VSCode可以连上了, 系统ssh还是不行,报错“kex_exchange_identification: read: Connecti…

Java学习笔记002——类的修饰符

在Java语言中,类的访问修饰符决定了其它类能够访问该类的方式。类有如下4种访问修饰符,在创建类时用于类的声明: 1、public: 当一个类被声明为public时,它可以从任何其他类中被访问,无论这些类位于哪个包中。通常&am…

数字化转型导师坚鹏:BLM证券公司数字化转型战略

BLM证券公司数字化转型战略 ——以BLM模型为核心,实现知行果合一 课程背景: 很多证券公司存在以下问题: 不知道如何系统地制定证券公司数字化转型战略? 不清楚其它证券公司数字化转型战略是如何制定的? 不知道…

Redis 淘汰策略、持久化、高可用

淘汰策略 只有 redis 内存空间已满并且往里面写新数据,才会触发淘汰策略。通过 expire / / /pexpire 让 key-value 过期,从而让 redis 清除这个 key-value。value 的数据结构typedef struct redisObject {unsigned tpye:4;unsigned encoding:4;// 判断哪…

Linux基础命令[10]-cmp

文章目录 1. cmp 命令说明2. cmp 命令语法3. cmp 命令示例3.1 不加参数3.2 -b(显示不同的字节)3.3 -i(跳过字节)3.4 -l(显示所有不同)3.5 -n(比较n个字节)3.6 -s(不显示信…