elasticsearch使用Ngram实现任意位数手机号搜索

文章目录

  • Ngram自定义分词案例
    • 实战问题拆解
  • Ngram分词器定义
    • Ngram分词定义
    • Ngram分词示例
    • Ngram分词应用场景
  • Ngram分词实战

Ngram自定义分词案例

当对keyword类型的字段进行高亮查询时,若值为123asd456,查询sd4,则高亮结果是<em>123asd456<em>。那么,有没有办法只对sd4高亮呢?用一句话来概括问题:明明只想查询ID的一部分,但高亮结果是整个ID串,此时应该怎么办?

实战问题拆解

###定义索引
PUT my_index_0602
{"mappings": {"properties": {"phoneNum": {"type": "keyword"}}}
}####批量写入数据
POST my_index_0602/_bulk
{"index":{"_id":1}}
{"phoneNum":"13511112222"}
{"index":{"_id":2}}
{"phoneNum":"13844248474"}###执行模糊检索和高亮显示
POST my_index_0602/_search
{"highlight": {"fields": {"phoneNum": {}}},"query": {"bool": {"should": [{"wildcard": {"phoneNum": "*1111*"}}]}}
}

高亮检索结果如下。

在这里插入图片描述
也就是说,整个字符串都呈现为高亮状态了,没有达到预期。

检索过程中选择使用wildcard是为了解决子串匹配的问题,wildcard的实现逻辑类似于MySQL的like模糊匹配。传统的text标准分词器,包括中文分词器ik、英文分词器english、standard等都不能解决上述子串匹配问题。

而实际业务需求是这样的:一方面要求输入子串能召回全串;另一方面要求检索的子串实现高亮。对此,只能更换一种分词来实现,即Ngram。

Ngram分词器定义

Ngram分词定义

Ngram是一种基于统计语言模型的算法。Ngram基本思想是将文本里面的内容按照字节大小进行滑动窗口操作,形成长度是N的字节片段序列。此时每一个字节片段称为gram。对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间。列表中的每一种gram就是一个特征向量维度。

该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其他任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram(二元语法)和三元的Tri-Gram(三元语法)。

Ngram分词示例

以“你今天吃饭了吗“这一中文句子为例,它的Bi-Gram分词结果如下。

在这里插入图片描述

Ngram分词应用场景

❑场景1:文本压缩、检查拼写错误、加速字符串查找、文献语种识别。

❑场景2:自然语言处理自动化领域得到新的应用。如自动分类、自动索引、超链的自动生成、文献检索、无分隔符语言文本的切分等。

❑场景3:自然语言的自动分类功能。针对Elasticsearch检索,Ngram针对无分隔符语言文本的分词(比如手机号检索),可提高检索效率(相较于wildcard检索和正则匹配检索来说)

Ngram分词实战

###定义索引
PUT my_index_0603
{"settings":{"number_of_shards":1,"number_of_replicas":0,"index.max_ngram_diff" : 10,"analysis":{"analyzer":{"phoneNo_analyzer":{"tokenizer": "phoneNo_analyzer"}},"tokenizer":{"phoneNo_analyzer":{"type": "ngram","min_gram": 4,"max_gram": 11,"token_chars": ["letter","digit"]}}}},"mappings":{"dynamic":"strict","properties":{"phoneNo":{"type":"text","analyzer": "phoneNo_analyzer"}}}
}####批量写入数据
POST my_index_0603/_bulk
{"index":{"_id":1}}
{"phoneNo":"13511112222"}
{"index":{"_id":2}}
{"phoneNo":"13844248474"}POST my_index_0603/_analyze
{"analyzer": "phoneNo_analyzer","text": "13511112222"
}POST my_index_0603/_search
{"highlight": {"fields": {"phoneNo": {}}},"query": {"bool": {"should": [{"match_phrase": {"phoneNo": "1111"}}]}}
}

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/12419.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python项目连接数据库(mysql,postgresql)

在实际开发过程中,对于项目的数据查询和数据统计,那python是相当好用,相信很多后端工程师是java语言入门的,对于python呢是有一点陌生,我自己也是,不过当你操作起来呢发现其实还是蛮好上手的。以下就是一些…

C语言基础-标准库函数

C语言的标准库函数是由C语言标准库(如C99、C11等)提供的一系列预定义函数,这些函数通常用于执行常见的编程任务,如字符串操作、内存管理、数学计算、文件操作等。通过使用标准库函数,程序员可以更加高效地编写C语言程序…

在ubuntu上创建WiFi热点

要在 wlan0 无线网卡上发射热点(即创建 WiFi 热点),可以使用 hostapd 和 dnsmasq 这两个工具。hostapd 用于创建热点,而 dnsmasq 用于提供 DHCP 和 DNS 服务,以便连接到热点的设备可以获取 IP 地址并访问互联网。 下面…

【AI】DeepStream(03):deepstream_test1_app

1、简介 deepstream-test1:演示各种 DeepStream 插件构建 GStreamer 管道。从文件中获取视频、解码、批处理,然后进行对象检测,最后在屏幕上渲染框。 源码路径:/opt/nvidia/deepstream/deepstream/sources/apps/sample_apps/deepstream-test1 先看下效果 2、编译 1)…

Qt将ffmpeg解码出来的数据保存为文件

具体代码如下: QImage image(m_pAVPicture.data[0], m_videoWidth, m_videoHeight, QImage::Format_RGB888);QString currrentTime = QDateTime::currentDateTime().

重写muduo网络库之调用流程的梳理

目录 1、流程叙述 2、我们看看TcpServer的构造都做了什么? 3、start() 3.1 开启loop 3.2 连接的建立 3.3 数据的收发 4、连接的关闭 muduo网络库各组件梳理见此博客 重写muduo库之组件梳理 1、流程叙述 首先,我们是怎么使用的? 1.定…

MTP协议中文翻译第一二三四章

1 简介 ​ 媒体传输协议(MTP)是一种协议,旨在与瞬态存储设备进行内容交换以及命令和控制。它是作为PTP或图像传输协议的扩展而开发的,主要针对便携式数码相机媒体播放器和手机。 1.1 目标 ​ 这个协议的主要目的是促进具有瞬时连接性和显著存储容量的媒体设备之间的通信…

【iOS】工厂模式

文章目录 前言设计模式的三大原则简单工厂模式工厂方法模式抽象工厂模式关于三兄弟的升级与降级注意 前言 上文讲完了iOS的架构模式,接下来聊一聊设计模式,设计模式有许多,主要介绍一下工厂模式 设计模式的三大原则 S 单一职责原则 告诉我…

PBR系列-光之简史

作者:游梦 ​ 欢迎进入官网体验使用:Mapmost——让人与机器联合创作成为新常态 ​说到PBR理论分为三大理论:物理光源、物理材质与物理相机,三者都与光有着千丝万缕的关系,原打算这期讲解物理材质,在梳理知…

MySQL:某字段追加随机数

在MySQL中,你可以使用UPDATE语句结合随机函数RAND()来为某个字段追加随机数。以下是一个示例,假设我们有一个表my_table,其中有一个字段my_field,我们想要为这个字段追加一个介于1到100之间的随机数: UPDATE my_table…

OpenHarmony 3.1 Release实战开发 + Linux 原厂内核Launcher起不来问题分析报告

1、关键字 Launcher 无法启动;原厂内核;Access Token ID; 2、问题描述 芯片:rk3566;rk3399 内核版本:Linux 4.19,是 RK 芯片原厂发布的 rk356x 4.19 稳定版内核 OH 版本:OpenHa…

Java Spring的远程调用方式(如RMI、Hessian、Burlap等)

Spring框架提供了对多种远程调用技术的集成,使得开发者可以方便地在分布式系统中实现远程服务调用。以下是Spring支持的一些常见远程调用方式: 1. RMI (Remote Method Invocation) RMI是一种Java特有的远程调用技术,允许一个Java虚拟机上的…

【一站式学会Kotlin】第六节 lamda表达式、拖尾lamda表达式

一、 lamda 表达式的完整语法形式: val sum: (Int, Int) -> Int = {x: Int, y: Int -> x + y }(1)lamda表达式总是在花括号中 (2)完成的语法形式参数声明放在花括号内,(可选) (3)函数体跟在->后 (4)如果能推断出该lamda表达式的返回值类型不是Unit,那么该…

nginx文件夹内文件解释<一>

目录 linux中/etc/nginx/查询目录整体解释分目录解释Conf.d目录 linux中/etc/nginx/查询目录 [rootrelease nginx]# ls -l total 76 drwxr-xr-x 2 root root 4096 Mar 12 22:49 conf.d drwxr-xr-x 2 root root 4096 Nov 11 2022 default.d -rw-r--r-- 1 root root 1077 Nov 1…

vue中图片引入与使用几种方式

方法一&#xff1a;img 标签静态引入 朴实无华 <img src"../assets/img/logo.png" > 方法二&#xff1a;background-image 朴实无华2.0版 background-image: url("../assets/img/bg.jpg");方法三&#xff1a;require()方法 将编写代码时定义的路径…

elementui,iview等 表格单元格合并之固定列

要的效果如下 需要合并 show weak 及 Siginin这三列 上代码 <template><Table:columns"columns":span-method"handleSpan":data"data"bordersize"small"ref"table"></Table> </template> <sc…

R实验 基础(一)

实验目的&#xff1a; 了解实验报告书的书写要求&#xff1b;掌握R、RStudio的下载与安装&#xff1b;熟悉R的界面及基本操作&#xff1b;进一步熟悉R和RStudio的界面及基本操作&#xff1b;初步了解R的绘图和程序包的下载、安装和加载使用。 实验内容&#xff1a; 了解实验报…

Python sort() 和 sorted() 的区别应用实例详解

大家好&#xff0c;今天针对 Python 中 sort() 和 sorted() 之间的区别&#xff0c;来一个实例详细解读。sort — 顾名思义就是排序的意思&#xff0c;它可以接收的对象为可迭代的数据类型。今天以列表为例子演示两者的不同点、相同点&#xff0c;以及其中一些常用的高级参数使…

支付平台怎么应对DDOS攻击

支付平台怎么应对DDOS攻击?在数字化时代&#xff0c;支付平台已成为人们日常生活中不可或缺的一部分。然而&#xff0c;随着支付平台的广泛应用&#xff0c;其面临的安全威胁也日益严峻。其中&#xff0c;DDOS&#xff08;分布式拒绝服务攻击&#xff09;以其高隐蔽性、强破坏…

智慧武装三维实景电子沙盘系统

智慧武警实景三维电子沙盘系统是一个集成了先进三维建模技术、大数据分析、实时动态更新、交互操作以及高度安全可靠的综合性平台。它专为武警部队设计&#xff0c;旨在提供一个实战指挥和战术训练的基础平台支撑&#xff0c;以满足指战员在作战环境研究、标图作业、战法研究、…