Elasticsearch 如何处理 Aggs 顺序中的大写字母和小写字母?

Elasticsearch 排序允许你根据特定条件对搜索结果进行排序。 然而,在排序时处理区分大小写时,Elasticsearch 将大写和小写字母视为不同的字符,分别对它们进行排序。 这是因为 ASCII 表顺序是从大写 A 到小写 z。

默认情况下,Elasticsearch 按以下顺序对字符串进行排序:首先是数字,然后是大写字母,最后是小写字母。 例如,如果您有术语 “Apple”、“apple”、“banana”、“Carrot” 和 “1apple”,它们将按升序排序为“1apple”、“Apple”、“Carrot”、“ apple”、“banana”。

POST /test_casing/_bulk
{ "index" : {} }
{ "my_field" : "Apple" }
{ "index" : {} }
{ "my_field" : "apple" }
{ "index" : {} }
{ "my_field" : "banana" }
{ "index" : {} }
{ "my_field" : "Carrot" }
{ "index" : {} }
{ "my_field" : "1apple" }

这种默认行为可能并不总是令人满意。 例如,如果你对值 “Apple”、“banana” 和 “Carrot” 建立了索引,并且使用升序排列,那么你将得到 “Apple”、“Carrot” 和“banana”。 但是,你可能想要 “Apple”、“banana”、“Carrot”。

为此,你可以使用 Elasticsearch 中称为规范化器(normalizer)的功能。 规范化器与关键字字段类型一起使用,允许你以类似于分析文本的方式预处理关键字字段的输入。

然而,与分析器不同,规范化器不会将输入分解为标记。 这使得它适合需要对整个输入进行索引或排序的关键字字段类型。

PUT /test_casing2
{"settings": {"analysis": {"normalizer": {"my_normalizer": {"type": "custom","filter": ["lowercase"]}}}},"mappings": {"properties": {"my_field": {"type": "keyword","normalizer": "my_normalizer"}}}
}
POST /test_casing2/_bulk
{"index":{}}
{"my_field":"Apple"}
{"index":{}}
{"my_field":"apple"}
{"index":{}}
{"my_field":"banana"}
{"index":{}}
{"my_field":"bananA"}
{"index":{}}
{"my_field":"Carrot"}

需要注意的是,使用标准化器会改变索引中的值。 如果你想保留原始值,例如带有大写 “A” 的 “Apple”,你可以使用子字段(sub-fields)。 这允许你保留原始字段值和标准化字段值。 在聚合结果中,Elasticsearch 将仅显示你在聚合中使用的字段

不幸的是,Elasticsearch 不支持直接在术语聚合中进行不区分大小写的排序。 即使使用脚本聚合和标准化器,也不可能以不区分大小写的方式排序并区分大小写地显示结果。 这是用户在使用 Elasticsearch 时应该注意的限制。

如何向现有索引添加标准化器?

让我们看一下在 Elasticsearch 中向现有索引添加规范器的过程的实际示例。 此过程涉及几个步骤:关闭索引、更新设置、重新打开索引、更新映射、更新数据索引,最后运行查询。

首先,你需要使用以下命令关闭索引:

POST test_casing/_close

接下来,你更新索引的设置以添加标准化器。 在本例中,我们添加一个应用小写过滤器的自定义规范化器:

PUT test_casing/_settings
{"analysis": {"normalizer": {"my_normalizer": {"type": "custom","filter": ["lowercase"]}}}
}

更新设置后,你可以重新打开索引:

POST test_casing/_open

现在,你需要更新索引的映射以使用规范器。 在这里,我们向 “my_field” 添加一个使用标准化器的子字段:

PUT test_casing/_mapping
{"properties": {"my_field": {"type": "text","fields": {"normalized": {"type": "keyword","normalizer": "my_normalizer"}}}}
}

请注意,my_field.normalized 是字段名称。

接下来,你可以通过运行 update_by_query 来更新数据索引,这将在 my_field.normalized 字段内添加数据:

POST test_casing/_update_by_query

最后,你可以对索引运行搜索查询。 在本例中,我们在新的标准化字段上运行聚合:

GET /test_casing/_search
{"size": 0,"aggs": {"my_terms": {"terms": {"field": "my_field.normalized"}}}
}

此过程演示了如何将规范器添加到 Elasticsearch 中的现有索引,从而使你能够更灵活地处理区分大小写的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/191255.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

6大关键词:尝新/随心/低忠诚···,全面解读食品饮料行业发展趋势与消费者洞察|徐礼昭

内容:重构零售实验室&商派 《2023食品饮料行业零售数字化洞察报告》节选 作者:徐礼昭(商派市场负责人,重构零售实验室负责人) 如今品牌的影响力不再止于资本与业绩数字,更多是在产品核心价值以及消费…

Xilinx FPGA平台DDR3设计详解(二):DDR SDRAM组成与工作过程

本文主要介绍一下DDR SDRAM的基本组成以及工作过程,方便大家更好的理解和掌握DDR的控制与读写。 一、DDR SDRAM的基本组成 1、SDRAM的基本单元 SDRAM的基本单元是一个CMOS晶体管和一个电容组成的电路。 晶体管最上面的一端,称作栅极,通过…

005、简单页面-容器组件

之——布局 目录 之——布局 杂谈 正文 1.布局基础知识 2.Column 3.Row 4.实践 杂谈 布局容器组件。 一个丰富的页面需要很多组件组成,那么,我们如何才能让这些组件有条不紊地在页面上布局呢?这就需要借助容器组件来实现。 容器组件是…

C语言中的格式化输出符号:%d %c %p %x等

文章目录 概览%d%c%d和%c的区别%p%x %X输出浮点数参考 概览 C语言中的格式化输出符号有很多,以下是一些常见的: %d 或 %i:用于输出十进制整数。 %u:用于输出无符号十进制整数。 %f:用于输出浮点数。 %s:用…

通义千问 模型学习 和 SDK试用

通义千问-14B-Chat-Int4 模型库 (modelscope.cn) **通义千问-14B(Qwen-14B)**是阿里云研发的通义千问大模型系列的140亿参数规模的模型。Qwen-14B是基于Transformer的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样&#xff0…

灯光开不了了,是不是NVIDIA的问题

如果你跟我一样灯光亮度调节不了了,然后显示适配器又没有了,你看一下是不是和我这个大怨种一样把NVIDIA卸了,为了这个东西,这屏幕亮瞎我的眼镜😢😢。只需要进入官网,你就可以直接找到&#xff0…

【el-form】表单label添加?及tooltip

<el-form-item><span slot"label"><el-tooltip :content"tooltip提示框内容" placement"top"><i class"el-icon-question"></i></el-tooltip>{{ $t(menu.status) }}</span><el-radio-gr…

某公司前端笔试题(12.30)

1、对象数组去重&#xff1a; 数组去重&#xff1a; const a[{a:1,b:2},{a:2},{a:2},{a:1,c:3},{b:2,a:1}] 结果&#xff1a;[{a:1,b:2},{a:2},{a:1,c:3}] // 判断两个对象的属性值是否一致 const a [{ a: 1, b: 2 }, { a: 2 }, { a: 2 }, { a: 1, c: 3 }, { b: 2, a: 1 }] co…

报错:执行sudo gedit时 No protocol specifiedUnable to init server: 无法连接: 拒绝连接

1.问题描述 在执行sudo gedit编辑文件时&#xff0c;报错连接不上服务&#xff1a; 2.问题解决 2.1先安装Vncserver sudo apt-get update sudo apt-get install tightvncserver2.2执行 vncserver 按提示输入密码&#xff0c;不宜过短 2.3若出现提示warning 则按提示执行&…

C#之扩展方法详解

前言&#xff1a; 我们想要向一个类型中添加方法&#xff0c;可以通过以下两种方式&#xff1a; 1.修改源代码。 2.在派生类中定义新的方法。 但是这两种方式都有缺点&#xff0c;1如果是别人的代码&#xff0c;你对其直接进行修改&#xff0c;可能破坏代码的完整性&#x…

Windows11系统下MemoryCompression导致内存占用率过高

. # &#x1f4d1;前言 本文主要是win11系统下CPU占用率过高如何下降的文章&#xff0c;如果有什么需要改进的地方还请大佬指出⛺️ &#x1f3ac;作者简介&#xff1a;大家好&#xff0c;我是青衿&#x1f947; ☁️博客首页&#xff1a;CSDN主页放风讲故事 &#x1f304;每日…

【STM32】TIM定时器

第一部分&#xff1a;定时器基本定时的功能&#xff1b; 第二部分&#xff1a;定时器的输出比较功能&#xff1b; 第三部分&#xff1a;定时器输入捕获的功能&#xff1b; 第四部分&#xff1a;定时器的编码接口。 1 TIM简介 TIM&#xff08;Timer&#xff09;定时器&#…

STM32GPIO速度配置究竟改变了什么-笔记

STM32GPIO速度配置究竟改变了什么-笔记 摘要STM32引脚内部框图STM32时钟树端口寄存器I/O交流特性定义 摘要 一般有 Low、Medium、High&#xff0c;三种速度选择。速度配置变了硬件什么状态&#xff1f; 对 GPIO 的输入输出信号有什么影响&#xff1f; 编程时如何选取速度参数&…

【网络】传输层 -- 详解IP协议及IP协议的分片原理

目录 一、IP协议基本概念二、IP协议头格式1、报头和有效载荷如何分离2、有效载荷是如何向上交付&#xff08;分用&#xff09;的3、具体IP报头 三、网段划分1、什么是网段划分2、如何进行子网划分&#xff1f;再次理解子网划分及如何划分 3、私有IP地址和公网IP地址4、路由 四、…

虚拟机备份数据自动化验证原理

备份数据成功备份下来了&#xff0c;但是备份数据是否可用可靠&#xff1f;对于这个问题&#xff0c;最好最可靠的方法是将备份数据实际恢复出来验证。 但是这样的方法&#xff0c;不仅费时费力&#xff0c;而且需要随着备份数据的定期产生&#xff0c;还应当定期做备份数据验…

opencv知识库:利用cv2.resize()函数进行图像缩放

引言 在numpy知识库&#xff1a;深入理解numpy.resize函数和数组的resize方法中&#xff0c;小编较为详细地探讨了numpy的resize函数背后的机理。从结果来看&#xff0c;numpy.resize函数并不适合对图像进行缩放操作。而opencv中的resize函数虽然和numpy的resize函数同名&…

Java面试题(每天10题)-------连载(41)

目录 Spring篇 1、什么是Spring框架&#xff1f;Spring框架主要有哪些模块&#xff1f; 2、使用Spring框架能带来哪些好处&#xff1f; 3、什么是控制反转&#xff08;IOC&#xff09;&#xff1f;什么是依赖注入&#xff1f; 4、解释下Spring中的IoC? 5、BeanFactory和…

Fiddler抓包工具之fiddler设置弱网测试

弱网测试 概念&#xff1a;弱网看字面意思就是网络比较弱&#xff0c;我们通称为信号差&#xff0c;网速慢。 意义&#xff1a;模拟在地铁、隧道、电梯和车库等场景下使用APP &#xff0c;网络会出现延时、中断和超时等情况。 Fiddler弱网测试流程&#xff1a; 一、限速操作…

基于STC12C5A60S2系列1T 8051单片机的液晶显示器LCD1602移屏显示应用

基于STC12C5A60S2系列1T 8051单片机的液晶显示器LCD1602移屏显示应用 STC12C5A60S2系列1T 8051单片机管脚图STC12C5A60S2系列1T 8051单片机I/O口各种不同工作模式及配置STC12C5A60S2系列1T 8051单片机I/O口各种不同工作模式介绍液晶显示器LCD1602简单介绍IIC通信简单介绍掉电保…

使用Python免费调用通义千问大模型

Qwen-72b开源模型 模型的主要用途是预测或描述一个系统或现象的行为模式。它可以帮助人们更好地理解这个系统或现象&#xff0c;例如预测股市变化、天气预报、地震预警、交通流量等。模型也常用于设计和优化产品和工艺。在科学研究中&#xff0c;模型也是一种方法&#xff0c;用…