理解Es的DSL语法(二):聚合

前一篇已经系统介绍过查询语法,详细可直接看上一篇文章(理解DSL语法(一)),本篇主要介绍DSL中的另一部分:聚合

理解Es中的聚合

虽然Elasticsearch 是一个基于 Lucene 的搜索引擎,但也提供了聚合(aggregations)的功能,允许用户对数据进行统计和分析。聚合可以按照不同的维度对数据进行分组和汇总,从而得到有意义的统计信息。这也是Es很多场景下被当作分析工具使用的原因。

聚合语法

使用上来讲,es的聚合就相当于SQL中的group by,在DSL中主要使用aggs关键字和size关键字来控制:

{"size":0,"aggs":{"TestName":{  //自定义的聚合名称"term":{ //聚合类型关键字,根据聚合类型来"field":"title"  //需要聚合的字段}}}
}

这里着重说一下size关键字,如果单纯进行聚合,而不需要实际数据,最好这里size设置为0,设置size为0在进行聚合时,会默认触发Es的缓存机制,能够很有效的提升性能

当然聚合也可以搭配查询query使用,即对查询的数据进行聚合,例如我们对最近一天的文章,聚合一下标题:

{"query":{"bool":{"filter":[{"range":{ "create_time":{"gte":"now - 1d","lte":"now"}}}]}}"size":0,"aggs":{"TestName":{  //自定义的聚合名称"term":{ //聚合类型关键字,根据聚合类型来"field":"title"  //需要聚合的字段}}}
}

这里Es收到请求后,会先根据query中的条件去检索满足创建时间在近一天内的所有文档,然后对这些文档进行桶聚合,以title字段为桶,将title内容一致的文档放入桶内。

聚合的种类

总的来看,Es的聚合可以分为四类,即Bucketing Aggregations、Metric Aggregations、Matrix Aggregations、Pipeline Aggregations。

Bucketing Aggregations

将数据分桶,类似于 SQL 中的 GROUP BY。例如,可以根据某个字段的不同值将数据分组,然后对每个分组进行统计,对于字段和内容都有一定的限制。

常用的聚合关键字有:

关键字描述适用字段类型
TermsTerms 聚合根据指定字段的确切值将文档分组。它类似于 SQL 中的 GROUP BY 语句。keyword 
Histogram直方图聚合将数值字段划分为指定间隔的桶,并计算每个桶中的文档数量。

数值类型(

integerfloatdouble 、 long)

Date Histogram日期直方图聚合类似于直方图聚合,但它专门用于日期字段,允许你根据时间间隔(如天、周、月等)来分组数据date
Range范围聚合允许你根据指定的范围将数据分组,每个范围定义了上界和下界。数值类型

integerfloatdouble 、 long)

和date
IP Range IP 范围聚合允许你根据 IP 地址的范围将数据分组。ip
Date Range日期范围聚合是范围聚合的日期版本,专门用于日期字段。date
Filter/Filters过滤器聚合根据一个或多个过滤器条件将数据分组,每个过滤器条件定义了一个桶。可以应用于任何类型的字段,但通常与布尔查询结合使用来定义过滤器条件。
Nested 嵌套聚合应用于嵌套字段,它允许你根据嵌套对象中的字段值对嵌套文档进行分组。object或nested

详细的可查阅ElasticSearch的官网,这里仅列出常用的,我们假设Es中存在以下一个数据集合:

[{"name": "Book A", "category": "Fiction", "price": 9.99, "publish_date": "2020-01-01"},{"name": "Book B", "category": "Science", "price": 15.00, "publish_date": "2021-06-15"},{"name": "Book C", "category": "Fiction", "price": 12.50, "publish_date": "2022-03-10"},{"name": "Book D", "category": "Education", "price": 8.50, "publish_date": "2019-09-20"},{"name": "Book E", "category": "Science", "price": 20.00, "publish_date": "2023-01-05"}
]

并针对该数据集,进行相关的聚合样例:

 Terms Aggregation聚合

查看有多少种category以及每种的文档数量。

示例:

{"size":0,"aggs": {"genres": {"terms": {"field": "category"  // genre必须为keyword类型"size":3         //根据文档数量倒叙展示条数,默认不填写则仅展示10个}}}
}//输出:
{"category": {"buckets": [{"key": "Fiction", "doc_count": 2},{"key": "Science", "doc_count": 2},{"key": "Education", "doc_count": 1}]}
}
Histogram Aggregation 聚合

按价格区间聚合书籍

{"size":0,"aggs": {"price_distribution": {"histogram": {"field": "price","interval": 5  //以5元为一个段}}}
}//输出:
{"aggregations": {"price_distribution": {"buckets": [{ "key": 5, "doc_count": 1 },{ "key": 10, "doc_count": 2 },{ "key": 15, "doc_count": 2 }]}}
}
Date Histogram Aggregation 聚合

按年份查看出版书籍的数量

{"size":0,"aggs": {"books_over_time": {"date_histogram": {"field": "publish_date","calendar_interval": "year" //查询区间可以指定单位}}}
}//输出{"aggregations": {"books_over_time": {"buckets": [{ "key_as_string": "2019", "doc_count": 1 },{ "key_as_string": "2020", "doc_count": 1 },{ "key_as_string": "2021", "doc_count": 1 },{ "key_as_string": "2022", "doc_count": 1 },{ "key_as_string": "2023", "doc_count": 1 }]}}
}

其中对于date_histogram使用较多,这里单独列一下关于date_histogram的相关参数

  • calendar_interval:按照日历时间间隔(如年、季度、月、周、日等)来创建桶。

  • fixed_interval:按照固定时间间隔(如1小时、5分钟等)来创建桶,不考虑日历界限。

  • min_doc_count:设置为 0 或更大的值,以忽略那些文档计数小于该值的桶。

  • extended_bounds:允许聚合查询返回超出正常查询范围之外的桶,例如在直方图的开始或结束之前添加额外的桶。

  • order:指定桶的排序方式,可以是 asc(升序)或 desc(降序)。

  • format:自定义日期格式,用于指定桶的 key 值的日期格式。

  • time_zone:指定时区来应用到聚合上,特别是对于固定间隔的聚合。

  • pre_zonepost_zone:与 extended_bounds 结合使用,指定额外桶的时区。

{"size": 0,"aggs": {"publish_monthly": {"date_histogram": {"field": "publish_date","calendar_interval": "month",  // 每月一个桶"min_doc_count": 1,            // 只包括至少有一个文档的桶"extended_bounds": {"min": "2019-01-01","max": "2023-12-31"},  // 设置聚合的最小和最大界限"order": "desc",              // 桶按降序排序"format": "yyyy-MM",          // 桶 key 的格式"time_zone": "Europe/Berlin" // 使用柏林时区}}}
}

Range Aggregation聚合

查看价格区间内书籍的数量

{"size":0,"aggs": {"price_ranges": {"range": {"field": "price","ranges": [{ "from": 0, "to": 10 },{ "from": 10, "to": 20 }]}}}
}//输出
{"aggregations": {"price_ranges": {"buckets": [{ "from": 0, "to": 10, "doc_count": 2 },{ "from": 10, "to": 20, "doc_count": 3 }]}}
}
Filters Aggregation聚合

同时筛选 Fiction 和 Science 类别的书籍,并分别计算数量。

{"size":0,"aggs": {"category_filters": {"filters": {"filters": {"Fiction": {"term": {"category.keyword": "Fiction"}},"Science": {"term": {"category.keyword": "Science"}}}}}}
}
//输出
{"aggregations": {"category_filters": {"buckets": {"Fiction": { "doc_count": 2 },"Science": { "doc_count": 2 }}}}
}

这里特殊说明一下,针对以上场景,也可以使用:

{"query": {"bool": {"filter": [{"terms": {"category": ["Fiction", "Science"]}}]}},"size": 0,"aggs": {"category": {"terms": {"field": "category"}}}
}

不同的是,使用这种聚合,Es的需要进行两次操作,即:先根据query条件,进行数据查询,再对查询结果进行聚合,而Filters聚合则只有一次操作。在相同场景下,考虑性能的话,使用 filters 聚合可能在某些情况下更有效率,因为它可以利用 Elasticsearch 的缓存机制,特别是当这些特定的过滤条件经常被查询时。

Composite Aggregation聚合

按 category 和 publish_date 的每个月份组合聚合书籍。

{"size": 0,"aggs": {"category_date_composite": {"composite": {"sources": [{ "category": { "terms": { "field": "category.keyword" } } },{ "date": { "date_histogram": { "field": "publish_date", "calendar_interval": "month" } } }],"size": 10}}}
}
//输出
{"composite_of_category_and_date": {"buckets": [{"key": {"category": "Fiction", "date": "2020-01"}, "doc_count": 1},{"key": {"category": "Fiction", "date": "2022-03"}, "doc_count": 1},{"key": {"category": "Science", "date": "2021-06"}, "doc_count": 1},{"key": {"category": "Science", "date": "2023-01"}, "doc_count": 1}]}
}

Metric Aggregations

对数据进行数学运算,如计算平均值、总和、最小值、最大值等。此类大多对数字类型的字段进行聚合。

关键字描述
Sum Aggregation计算数值字段的总和
Avg Aggregation

计算数值字段的平均值

Min Aggregation

找出数值字段中的最小值

Max Aggregation

找出数值字段中的最大值

Stats Aggregation

返回字段的多个统计度量,包括最小值、最大值、平均值和总和。

Cardinality Aggregation

计算字段中唯一值的近似数量,对于大数据集非常有用,因为它比value_count更高效。

一般配合桶查询使用,对标的是SQL中的SUM、MAX等数学函数

Cardinality Aggregation

查看一共有多少文档:

{"size":0,"aggs": {"countALl": {"cardinality": {"field": "_id"}}}
}//输出
{"aggregations": {"countALl": {"value": 3}}
}

Min/Max Aggregation

//查看书籍最贵的价格
{"size":0,"aggs": {"maximum_price": {"max": {"field": "price"}}}
}
//输出:
{"aggregations": {"maximum_price": {"value": 20.0}}
}//查看书籍最便宜的价格
{"size":0,"aggs": {"min_price": {"min": {"field": "price"}}}
}
//输出
//输出:
{"aggregations": {"min_price": {"value": 5.0}}
}

Sum/Avg Aggregation

//对库内书籍价格求和
{"aggs": {"all_price": {"sum": {"field": "price"}}}
}//输出:
{"aggregations": {"all_price": {"value": 13.398}}
}//对库内书籍价格求均值
{"aggs": {"average_price": {"avg": {"field": "price"}}}
}//输出
{"aggregations": {"average_price": {"value": 13.398}}
}

Stats Aggregation

查看价格的综合统计

{"size":0,"aggs": {"price_stats": {"stats": {"field": "price"}}}
}//输出:
{"aggregations": {"price_stats": {"count": 5,"min": 8.5,"max": 20.0,"avg": 13.398,"sum": 66.99}}
}

聚合嵌套

语法格式为:

{"size":0,"aggs":{"One":{  // 一层桶名称"terms":{"field":"fielda"},"aggs":{  //一层桶下二层聚合} }}
}

以书籍书籍为例,查看每类书籍的平均价格,则可以先对书籍类型进行terms聚合,再在terms桶内,获取桶内书籍的平均价格:

//DSL
{"size": 0,"aggs": {"categories": {"terms": {"field": "keyword"},"aggs": {"average_price": {"avg": {"field": "price"}}}}}
}//输出结果
{"aggregations": {"categories": {"buckets": [{"key": "Fiction","doc_count": 2,"average_price": {"value": 11.245}},{"key": "Science","doc_count": 2,"average_price": {"value": 17.5}},{"key": "Education","doc_count": 1,"average_price": {"value": 8.5}}]}}
}

也可以查看发布年限,每年里发布书籍的总价格:

{"size": 0,"aggs": {"publish_years": {"date_histogram": {"field": "publish_date","calendar_interval": "year"},"aggs": {"total_price": {"sum": {"field": "price"}}}}}
}//输出
{"aggregations": {"publish_years": {"buckets": [{"key_as_string": "2019","key": 1577836800000,"doc_count": 1,"total_price": {"value": 8.5}},{"key_as_string": "2020","key": 1609459200000,"doc_count": 1,"total_price": {"value": 9.99}},{"key_as_string": "2021","key": 1609459200000,"doc_count": 1,"total_price": {"value": 15.0}},{"key_as_string": "2022","key": 1640995200000,"doc_count": 1,"total_price": {"value": 12.5}},{"key_as_string": "2023","key": 1672531200000,"doc_count": 1,"total_price": {"value": 20.0}}]}}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/27390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LaTeX 学习 第2节 数学结构

----用教授的方式学习 目录 2.1 上标与下标 2.2 上下画线与花括号 2.3 分式 2.4 根式 2.5 矩阵 ​​​​​​​LaTex安装包:https://download.csdn.net/download/weixin_38135241/89416392 LaTex- windows安装包:https://download.csdn.net/down…

SpringBoot3 整合 Mybatis 完整版

本文记录一下完整的 SpringBoot3 整合 Mybatis 的步骤。 只要按照本步骤来操作&#xff0c;整合完成后就可以正常使用。1. 添加数据库驱动依赖 以 MySQL 为例。 当不指定 依赖版本的时候&#xff0c;会 由 springboot 自动管理。 <dependency><groupId>com.mysql&l…

yolo案例项目学习记录

box-ocr: 监控摄像头视频流实时计数传送带的货物&#xff0c;并提取货物上面文字或二维码 1.本地环境&#xff1a; 1.1torch、torchvison、torchaudio版本对应关系 PyTorch中torch、torchvision、torchaudio、torchtext版本对应关系_torch2.0.1对应的torchvision-CSDN博客 1…

Python 全栈系列252 一些小计划

说明 最近整体进展还比较顺利&#xff0c;不过也因为这样&#xff0c;好几个线头怎么继续平衡和推进需要稍微捋一下。 内容 按重要|紧急方法来看&#xff0c;线头1是重要且紧急的&#xff0c;QTV200也算重要且紧急&#xff0c;其他都算是重要不紧急。 线头1: 数据清洗 虽然…

OpenGL3.3_C++_Windows(10)

最终演示 ​ demo演示 Assimp模型渲染 模型导入库Assimp&#xff1a;导入很多种不同的模型文件格式&#xff0c;加载至Assimp的通用数据结构&#xff08;树形&#xff09;中&#xff0c;不论导入的是什么种类的文件格式&#xff0c;用同一种方式访问我们需要的数据。 Assimp库…

【python-AI篇】人工智能技能树思维导图

大致总结一下得出如下思维导图&#xff0c;如不完善日后迭代更新 1. python基础三方库 1.1 科学计算库 ---- numpy库 1.2 科学计算库 ---- Scipy库 1.3 数据分析处理库 ---- pandas库 1.4 可视化库 ---- matplotlib库 1.5 可视化库 ---- seaborn库 1.6 机器学习和数据挖掘库 …

这世上又多了一只爬虫(spiderflow)

让我们一起默念&#xff1a; 爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫爬虫 接着大声喊出来&#xff1a; 一&#xff01;只&#xff01;爬&#xff01;虫&#xff01;呀&#xff01;爬&#xff01;呀&#xff01;爬&#xf…

高考志愿填报选专业,兴趣爱好和就业前景哪个优先?

每个人都有自己的兴趣与爱好&#xff0c;而高考志愿填报是在为自己选择职业方向。最理想的状态就是把自己的兴趣和爱好与自己的职业统一起来&#xff0c;让兴趣和爱好促进职业的发展&#xff0c;为职业增添动力。但现实生活中&#xff0c;这种理想的状态并不是每个人都能达到的…

AXI 1G/2.5G Ethernet Subsystem IP核使用过程中参数配置全解

AXI 1G/2.5G Ethernet Subsystem 是一个为FPGA设计的以太网子系统&#xff0c;它支持1Gbps和2.5Gbps的数据传输速率&#xff0c;使得FPGA能够直接进行高速以太网通信。这个子系统通常包含以太网MAC控制器、GMII&#xff08;千兆媒体独立接口&#xff09;或RGMII&#xff08;简化…

抖音视频素材在哪找无版权?免版权可以剪辑视频素材网站分享

在抖音视频制作中&#xff0c;素材的选择至关重要。今天&#xff0c;我就为大家推荐几个宝藏网站&#xff0c;帮你找到既好用又无版权纠纷的视频素材。无论你是新手还是老手&#xff0c;这些网站都能满足你的需求。 蛙学府 首先推荐的是蛙学府。这个网站提供丰富的视频素材&am…

[CUDA编程] cuda graph优化心得

CUDA Graph 1. cuda graph的使用场景 cuda graph在一个kernel要多次执行&#xff0c;且每次只更改kernel 参数或者不更改参数时使用效果更加&#xff1b;但是如果将graph替换已有的kernel组合&#xff0c;且没有重复执行&#xff0c;感觉效率不是很高反而低于原始的kernel调用…

Linux-笔记 设备树插件

目录 前言&#xff1a; 设备树插件的书写规范&#xff1a; 设备树插件的编译&#xff1a; 内核配置: 应用背景&#xff1a; 举例&#xff1a; 前言&#xff1a; 设备树插件&#xff08;Device Tree Blob Overlay&#xff0c;简称 DTBO&#xff09;是Linux内核和嵌入式系统…

【Ardiuno】使用ESP32单片机网络功能调用API接口(图文)

接着上文连通wifi后&#xff0c;我们通过使用HTTPClient库进行网络相关操作&#xff0c;这里我们通过http协议进行接口调用。 为了简化操作&#xff0c;小飞鱼这里使用了本地服务器上的文件作为接口&#xff0c;正常操作时会调用接口后&#xff0c;将服务器返回的数据进行解析…

门控循环单元GRU与长短期记忆网络LSTM

门控循环单元与长短期记忆网络 门控隐状态 问题提出&#xff1a;对于一个序列来说不是每个观察值都是同等重要想只记住相关的观察需要&#xff1a; 能关注的机制&#xff08;更新门&#xff09;能遗忘的机制&#xff08;重置门&#xff09; 第一个词元的影响至关重要。 我们…

【第10章】Vue之Element Plus常用组件

文章目录 前言一、表格1. 带斑马纹表格2. 展示 二、分页1.国际化(中文)2.分页代码3. 展示 三、表单1. 表单代码2. 展示 四、卡片1. 卡片代码2. 展示 总结 前言 通过上一章的快速入门&#xff0c;我们已经学习了按钮使用&#xff0c;接下来学习Element Plus的常用组件&#xff…

统计信号处理基础 习题解答10-12

题目&#xff1a; 如果&#xff0c;其中&#xff1a; 对某个&#xff0c;令。证明当时使最大。另外&#xff0c;证明。它们为什么是相同的&#xff1f;如果&#xff0c;基于的的MMSE估计量是什么&#xff1f; 解答&#xff1a; 根据多维高斯分布的定义&#xff0c;可以得到&am…

有监督学习——线性回归

1. 线性模型 有监督学习是通过已知的样本产生预测模型的学习方法&#xff0c;任何有监督学习模型都可被想象成一个函数&#xff1a; 其中&#xff0c;\(x_1,x_2,x_3…x_n\)是模型的n维的特征值&#xff0c;\(y\)是要预测的目标值/分类&#xff0c;当\(y\)是可枚举的类型时&…

11.docker镜像分层dockerfile优化

docker镜像的分层&#xff08;kvm 链接克隆&#xff0c;写时复制的特性&#xff09; 镜像分层的好处&#xff1a;复用,节省磁盘空间&#xff0c;相同的内容只需加载一份到内存。 修改dockerfile之后&#xff0c;再次构建速度快 分层&#xff1a;就是在原有的基础镜像上新增了服…

2024 年最新 Python 基于百度智能云实现短语音识别、语音合成详细教程

百度智能云语音识别 采用国际领先的流式端到端语音语言一体化建模算法&#xff0c;将语音快速准确识别为文字&#xff0c;支持手机应用语音交互、语音内容分析、机器人对话等场景。百度短语音识别可以将 60 秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景…

CSS实现经典打字小游戏《生死时速》

&#x1f33b; 前言 CSS 中有这样一个模块&#xff1a;Motion Path 运动模块&#xff0c;它可以使元素按照自定义的路径进行移动。本文将为你讲解这个模块属性的使用&#xff0c;并且利用它实现我小时候电脑课经常玩的一个打字游戏&#xff1a;金山打字的《生死时速》。 &…