Elasticsearch 8.1官网文档梳理 - 十五、Aggregations(聚合)

Aggregations

ES 的聚合可以总结为三类:指标聚合、统计聚合、其他分析聚合。

  • Metric aggregations: 计算 field 的指标值,例如平均值、最大值、和等指标
  • Bucket aggregations: 基于 field 的值、范围、或其他标准对 doc 分类,每一类都是一个 bucketbin
  • Pipeline aggregations: 通过其他 取代 doc 或者 field 作为输入
GET /my-index-000001/_search
{"aggs": {...}
}

在查询中 aggs 的具体使用方法都在这一章,包括多个聚合查询、嵌套聚合查询等。

一、Bucket aggregations

桶(bucket)聚合,根据 给出的 标准(criterion)将 doc 放入不同的桶中,并统计在每个桶(bucket)中的 文档(doc)数量。桶(bucket)聚合可以创建子聚合,子聚合是基于父聚合的结果进行创建。

search.max_buckets 该参数用于限制在查询中返回的桶的数量,桶(bucket)聚合共有如下方法:

1.1 Adjacency matrix

一个桶聚合返回一个邻接矩阵。

1.2 Auto-interval date histogram

日期直方图(Date histogram) 类似的多数据桶聚合。日期直方图(Date histogram) 在聚合时根据给定的时间间隔进行聚合,结果中 桶(bucket)的数量不确定,依赖于文档(doc)中对应字段的数据范围。auto_date_histogram 聚合是给定桶(bucket)的数量,由 ES 自动选择聚合的时间间隔。

POST /sales/_search?size=0
{"aggs": {"sales_over_time": {"auto_date_histogram": {"field": "date","buckets": 10}}}
}
1.3 Categorize text

对文本进行分类,将具有相似结果的 text 类型收纳到一个 桶(bucket)中。

1.4 Children

一种特殊的单桶聚合,用于选择具有指定类型(如 join 类型)的子文档。

1.5 Composite
1.6 Date histogram

基于 时间(fidld 类型 为 date)的直方图。尽管可以使用 普通的直方图,完成类似于 date_histogram 直方图的功能,但 date_histogram 为时间类型提供了更准确描述时间间隔的方式。


POST /sales/_search?size=0
{"aggs": {"sales_over_time": {"date_histogram": {"field": "my_date","calendar_interval": "month"}}}
}

查询 my_date 字段每个月的 文档(doc)数量。

这里值得注意的是,时间间隔的选择有两种方式,一种是 周期间隔(Calendar intervals),另外一种是 固定间隔(Fixed intervals),分别对应参数 calendar_intervalfixed_interval

1.7 Date range

专门用于 时间(fidld 类型 为 date)的范围聚合。该聚合与普通范围聚合的主要区别在于,fromto 可以用日期数学表达式(Date Math )表示,而且还可以指定日期格式。date_range 此聚合包括from 字段的文档,但不包括每个范围内 to 所表示的文档。

POST /my_index/_search?size=0
{"aggs": {"range": {"date_range": {"field": "@timestamp","time_zone": "CET","ranges": [{ "to": "2016/02/01" }, { "from": "2016/02/01", "to" : "now/d" }, { "from": "now/d" }]}}}
}
1.8 Diversified sampler
1.9 Filter

缩小 聚合中的 文档集合。

POST /sales/_search?size=0&filter_path=aggregations
{"aggs": {"avg_price": { "avg": { "field": "price" } },"t_shirts": {"filter": { "term": { "type": "t-shirt" } },"aggs": {"avg_price": { "avg": { "field": "price" } }}}}
}### response
{"aggregations": {"avg_price": { "value": 140.71428571428572 },"t_shirts": {"doc_count": 3,"avg_price": { "value": 128.33333333333334 }}}
}
  • avg_price 返回 sales 索引中所有文档 price 字段的平均值
  • t_shirts.avg_price 返回 sales 索引中 type 字段为 t-shirt 的文档 的 price 字段的平均值
1.10 Filters
1.11 Geo-distance
1.12 Geohash grid
1.13 Geohex grid
1.14 Geotile grid
1.15 Global
1.16 Histogram

直方图聚合:依据某个 field 的值,将数据按间隔,放入不同的 桶(bucket)中。桶的取值范围和文档 该字段的取值范围一致。其中桶的 键 的计算方法为
b u c k e t k e y = M a t h . f l o o r ( ( v a l u e − o f f s e t ) / i n t e r v a l ) ∗ i n t e r v a l + o f f s e t bucket_key = Math.floor((value - offset) / interval) * interval + offset bucketkey=Math.floor((valueoffset)/interval)interval+offset
第一个桶(bucket)的 键 是根据 field 字段值的最小值计算出来的,最后一个桶(bucket)的 键 以同样的方式用 field 字段值的最大值计算。

POST /sales/_search?size=0
{"aggs": {"prices": {"histogram": {"field": "price","interval": 50}}}
}
1.17 IP prefix
1.18 IP range
1.19 Missing

基于 索引 中所有文档(doc),缺少的 缺少的某个 字段(field)或 该字段(field)的值为 NULL 的情况来创建桶。

POST /sales/_search?size=0
{"aggs": {"products_without_a_price": {"missing": { "field": "price" }}}
}

获得 sales 索引中,没有 price 字段或 price 字段值为 NULL 的 文档(doc)总数。

1.20 Multi Terms

多个 terms 聚合的组合,主要用于 按文档数量排序,或按复合键的度量聚合排序并获得前 N 个结果时。

GET /products/_search
{"aggs": {"genres_and_products": {"multi_terms": {"terms": [{"field": "genre" }, {"field": "product"}]}}}
}

注意: 如果不断的使用同一组 field 做聚合查询,则可以将 本组 field 的值组合成新的 字段,并在新的字段上使用 terms 聚合。

1.20 Nested
1.21 Parent
1.22 Range

通过定义一组范围,其中每个范围代表一个桶。在聚合过程中,从每个文档(doc)中提取的值将与每个桶范围进行核对,并将相关/匹配文档 放入桶(bucket)。range 此聚合包括from 字段的文档,但不包括每个范围内 to 所表示的文档。

GET sales/_search
{"aggs": {"price_ranges": {"range": {"field": "price","ranges": [{ "to": 100.0 },{ "from": 100.0, "to": 200.0 },{ "from": 200.0 }]}}}
}
1.23 Rare terms
1.24 Reverse nested
1.25 Sampler
1.26 Significant terms
1.27 Significant text
1.28 Terms

根据 field 的值来创建桶(bucket),field 中的每一个 值 都对应一个 桶(bucket


GET /_search
{"aggs": {"genres": {"terms": { "field": "genre" }}}
}
1.29 Variable width histogram
1.30 Subtleties of bucketing range fields

二、Metrics aggregations

计算 桶(bucket)内,文档(doc)某个字段(field)的度量值。

2.1 Avg

平均值

POST /exams/_search?size=0
{"runtime_mappings": {"grade.corrected": {"type": "double","script": {"source": "emit(Math.min(100, doc['grade'].value * params.correction))","params": {"correction": 1.2}}}},"aggs": {"avg_corrected_grade": {"avg": {"field": "grade.corrected"}}}
}

注意: 用于计算度量的字段可以来自于 文档(doc)某个字段(field),也可以来自于脚本结合 runtime field 字段。

2.2 Boxplot

箱图

2.3 Cardinality

估计某个字段(field)内有多少个不同的值

POST /sales/_search?size=0
{"aggs": {"type_count": {"cardinality": {"field": "type"}}}
}

注意: 计算 type 字段内有多少个不同的值

2.4 Extended stats

一次统计 多个指标值,包括 min(最小值)、max(最大值)、sum(求和)、count(计数)、avg(平均值)、sum_of_squares()、variance()、std_deviation()、std_deviation_bounds()

2.5 Geo-bounds
2.6 Geo-centroid
2.7 Geo-Line
2.8 Matrix stats
2.9 Max

最大值

2.10 Median absolute deviation
2.11 Min

最小值

2.12 Percentile ranks

某个值在 在百分位数的排名。

GET latency/_search
{"size": 0,"aggs": {"load_time_ranks": {"percentile_ranks": {"field": "load_time",   "values": [ 500, 600 ]}}}
}

500, 600 这两个数字 在 load_time 字段中位置的百分比(load_time 字段的值从小到大依次排列)

2.13 Percentiles

百分位数聚合。

GET latency/_search
{"size": 0,"aggs": {"load_time_outlier": {"percentiles": {"field": "load_time","percents": [ 95, 99, 99.9 ] }}}
}

latency 索引的 load_time 字段的 959999.9 分位数。

2.14 Rate
2.15 Scripted metric

使用脚本执行的指标聚合以提供指标输出

2.16 Stats

一次统计 多个指标值, 包括 min(最小值)、max(最大值)、sum(求和)、count(计数)、avg(平均值)


POST /exams/_search?size=0
{"aggs": {"grades_stats": { "stats": { "field": "grade" } }}
}
2.17 String stats

keyword 中一次统计 多个指标值, 包括 count(计数,非空)、min_length(最小长度)、max_length(最大长度)、avg_length(平均长度)、entropy(香农熵)

2.18 Sum

求和

2.19 T-test
2.20 Top hits

取 桶(bucket)内,按照 某种 排序(sort)匹配度靠前(size)的文档(doc

POST /sales/_search?size=0
{"aggs": {"top_tags": {"terms": {"field": "type","size": 3},"aggs": {"top_sales_hits": {"top_hits": {"sort": [{"date": {"order": "desc"}}],"_source": {"includes": [ "date", "price" ]},"size": 1}}}}}
}
2.21 Top metrics

top_metrics 聚合按照 sort 排序,选择 size 个文档中,metrics 指定的字段返回。

### 写入数据
POST /test/_bulk?refresh
{"index": {}}
{"s": 1, "m": 3.1415}
{"index": {}}
{"s": 2, "m": 1.0}
{"index": {}}
{"s": 3, "m": 2.71828}### 查询
POST /test/_search?filter_path=aggregations
{"aggs": {"tm": {"top_metrics": {"metrics": {"field": "m"},"sort": {"s": "desc"},"size": 1}}}
}### Response
{"aggregations": {"tm": {"top": [ {"sort": [3], "metrics": {"m": 2.718280076980591 } } ]}}
}

top_metrics 聚合中,文档(doc)按照 s 字段排倒序("sort": {"s": "desc"}),取前 1 个("size": 1),返回 m 字段。

2.22 Value count

计数

2.23 Weighted avg

加权平均值

三、Pipeline aggregations

管道聚合(Pipeline aggregations)基于其他的聚合结果进行聚合,并将结果添加到聚合中,管道聚合主要分为两类

  • Parent: (父级聚合)
    管道聚合的一个系列,可获得其父聚合的输出,并能计算新的桶或新的聚合,以添加到现有的桶中。
    同胞聚合
  • Sibling:(同级聚合)
    提供同级聚合输出的管道聚合,能够计算与同级聚合处于同一级别的新聚合。
3.1 Average bucket

Sibling
计算指定指标的平均值,指定的度量必须是数字。同级聚合必须是多桶聚合。

PUT my_index
{"mappings": {"properties": {"@timestamp" : {"type" : "date","format" : "[yyyy/MM/dd]"},"my_field" : {"type" : "keyword"},"my_other_field" : {"type" : "float"}}}
}POST my_index/_bulk
{"index":{}}
{"@timestamp": "2024/03/01", "my_other_field": 5}
{"index":{}}
{"@timestamp": "2024/03/02", "my_other_field": 6}
{"index":{}}
{"@timestamp": "2024/04/01", "my_other_field": 7}
{"index":{}}
{"@timestamp": "2024/05/01", "my_other_field": 8}POST my_index/_search
{"size": 0,"aggs": {"sales_per_month": {"date_histogram": {"field": "@timestamp","calendar_interval": "month"},"aggs": {"sales": {"avg": {"field": "my_other_field"}}}},"avg_monthly_sales": {"avg_bucket": {"buckets_path": "sales_per_month>sales" }}}
}
3.2 Bucket script

Parent
执行一个脚本,该脚本可以对父级多桶聚合中,每个桶指定的指标执行计算。指定的指标必须是数值,脚本必须返回数值。

POST my_index/_search
{"size": 0,"aggs": {"sales_per_month": {"date_histogram": {"field": "@timestamp","calendar_interval": "month"},"aggs": {"sales": {"avg": {"field": "my_other_field"}},"percentage": {"bucket_script": {"buckets_path": {"tShirtSales": "sales","num": "_count"},"script": "params.tShirtSales / params.num  * 100"}}}}}
}
3.3 Bucket count K-S test
3.4 Bucket correlation
3.5 Bucket selector
3.6 Bucket sort
3.7 Cumulative cardinality
3.8 Cumulative sum
3.9 Derivative

Parent
用于计算父级直方图(或日期直方图)聚合中指定度量的导数,指定的度量值必须是数值。

POST my_index/_search
{"size": 0,"aggs": {"sales_per_month": {"date_histogram": {"field": "@timestamp","calendar_interval": "month"},"aggs": {"sales": {"avg": {"field": "my_other_field"}},"sales_deriv": {"derivative": {"buckets_path": "sales" }},"sales_deriv2": {"derivative": {"buckets_path": "sales_deriv" }}}}}
}
3.10 Extended stats bucket
3.11 Inference bucket
3.12 Max bucket
3.13 Min bucket
3.14 Moving function
3.15 Moving percentiles
3.16 Normalize
3.17 Percentiles bucket
3.18 Serial differencing
3.19 Stats bucket
3.20 Sum bucket

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/16348.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql 函数 GROUP_CONCAT 踩坑记录,日志:Row 244 was cut by GROUP_CONCAT()

mysql 函数 GROUP_CONCAT 踩坑记录,报错:Row 244 was cut by GROUP_CONCAT 结论:个人建议还是放在内存中拼接吧~db日志信息:Row 244 was cut by GROUP_CONCAT())根本原因:拼接的字符串长度超过 group_concat_max_len […

07-30-03-重型运输

题目描述 Big Johnson运输汽车制造公司是专门生产大型汽车的厂商。它们最新型号的运输车Godzilla V12,运载量是如此之大,以至于它所能装载的重量从不取决于它本身,而是取决于所经过道路的承载限制。给定起点和终点城市,试计算God…

开源与闭源大模型在AI发展中的对比分析

在当今AI领域,开源和闭源是两种主要的发展路径。开源模型指的是模型的源代码和相关资源对公众开放,可以自由获取和使用;闭源模型则是指模型源代码和相关资源受到保护,不对外公开。针对开源与闭源大模型在数据隐私保护、用户数据安…

uni-app实现页面之间的跳转传参(八)

界面之间的参数传递在 开发中经常会用到,这节主要将一下uni-app开发应用是的传参情况。如下图所示,我的一级界面将点检分成三类:日点检、周点检和年保养;在点击相应的会导航到相应的功能。 在uni-app中常用的方法有uni.navigateTo(OBJECT)、uni.redirectTo(OBJECT);简单的…

实时通信的方式——WebRTC

文章目录 基于WebRTC实现音视频通话P2P通信原理如何发现对方? 不同的音视频编解码能力如何沟通?(媒体协商SDP)如何联系上对方?(网络协商) 常用的API音视频采集getUserMedia核心对象RTCPeerConne…

Golang Web开发- Gin不使用Nginx部署Vue项目

文章目录 前言一、ANTD PRO VUE 构建下载代码安装依赖前端启动修改路由模式【重点】前端构建二、ANTD PRO VUE 权限去除【选做】三、Gin 后端启动代码总结前言 当我们应用后端用Gin框架,前端使用Vue开发,那么在最后部署上线的时候,一般是前端Vue构建的dist目录的文件部署在…

Web开发学习总结

学习路线 Web 全球广域网,也称为万维网(www World Wide Web),能够通过浏览器访问的网站 初识Web前端 Web标准也称为网页标准,由一系列的标准组成,大部分由W3C(World Wide Web Consortium,万维网联盟)负责制定。三个组…

vLLM部署qwen大模型加速推理实现

目录 step1: 编写 vllm_wrapper.py step2: 应用场景:给体检指标生成健康建议 step1: 编写 vllm_wrapper.py from transformers import PreTrainedTokenizer, GenerationConfig, StoppingCriteriaList from typing import Optional, Callable, List, Tuple, Union…

用例篇

弱网测试 弱网测试的目的是尽可能保证用户体验,关注的关键点包括: 页面响应时间是否可以接受,关注包括哦热启动、冷启动时间、页面切换、前后台切换、首字时间,首屏时间等。页面呈现是否完成一致。超时文案是否符合定义&#xf…

CSS浮动(CSS从入门到精通学习第四天)

css第04天 一、其他样式 1、圆角边框 在 CSS3 中,新增了圆角边框样式,这样我们的盒子就可以变圆角了。 border-radius 属性用于设置元素的外边框圆角。 语法: border-radius:length; 参数值可以为数值或百分比的形式如果是正方形&…

K8S认证|CKA题库+答案| 15. 备份还原Etcd

目录 15、 备份还原Etcd CKA v1.29.0模拟系统 下载试用 题目: 开始操作: 1)、切换集群 2)、登录master并提权 3)、备份Etcd现有数据 4)、验证备份数据快照 5)、查看节点和Pod状态 6&#xff0…

Django--ApiView示例

1. 代码示例 from django.contrib.auth.models import User from rest_framework import serializers from rest_framework.views import APIView from rest_framework.response import Response from rest_framework import statusfrom .models import BookInfoclass BookInf…

linux下的openssh简介(centos 8)

目录 1. 简介2. 安装 OpenSSH3. 配置 OpenSSH 服务器3.1 服务器配置文件配置文件的详解 3.2 安全操作——修改 SSH 端口3.3 安全操作——禁止 root 登录3.4 安全操作——密钥认证3.5 安全操作——禁止密码认证 4. 配置 OpenSSH 客户端4.0 常用命令4.0.1 ssh常用命令4.0.2 scp常…

Java进阶学习笔记11——多态

什么是多态? 多态是在继承/实现情况下一种现象,表现为:对象多态和行为多态。 同一个对象,在不同时刻表现出来的不同形态。 多态的前提: 要有继承/实现关系 要有方法的重写 要有父类引用指向子类对象。 多态的具体代码…

使用 LangFuse 意外被挂马!我是怎么恢复系统稳定的?

在使用 LangFuse 过程中,被意外挂马!通过一番折腾服务恢复正常~ 本文将详细介绍应对恶意脚本和进程的完整方案,包括识别、清理、恢复和预防步骤。 阿里云扫到的信息 被执行的 Base64 SUlaQnRTCmV4ZWMgJj4vZGV2L251bGwKSUhDa0hQbmQ9Li8uJChkYXRlfG1kNXN1bXxoZWFkIC1jMjApCl…

Value-Based Reinforcement Learning(1)

Action-Value Functions Discounted Return(未来的reward,由于未来存在不确定性,所以未来的reward 要乘以进行打折) 这里的依赖actions ,和states 这里 Policy Function : ,表达了action的随机性 S…

创新实训2024.05.26日志:服务端接口实现——用户开启多个会话

1. 概念图 类似于Kimi,文心一言,chatGPT等市面上主流的大模型,我们的大模型也支持同一个用户的多个会话,并且提供支持联系上下文给出解答的能力。 2. 基于会话的对话 在langchain chatchat这个对langchain框架进行二次封装的第三…

vulnhub靶场之FunBox-8

一.环境搭建 1.靶场描述 Its a box for beginners and can be pwned in the lunch break. This works better with VirtualBox rather than VMware 2.靶场下载 Funbox: Lunchbreaker ~ VulnHub 3.靶场启动 二.信息收集 1.寻找靶场真实IP地址 nmap -sP 192.168.2.0/24 arp-…

介绍一下Lumina-T2X在哪些领域有应用

接上文【文末附gpt升级方案】Lumina-T2X:大型扩散DiTs在多模态内容生成中的新篇章-CSDN博客 Lumina-T2X是一个创新的多模态内容生成模型,其应用领域广泛,特别是在需要生成多种类型媒体内容的应用场景中表现突出。以下是Lumina-T2X在主要领域…

[AIGC] 什么是flink sql

Apache Flink 是一个针对流数据和批数据的开源平台。Flink SQL 是 Flink 中的一个模块,它允许我们使用 SQL 语言来进行流处理和批处理,极大地简化了大数据处理的复杂度。 Flink SQL API 支持标准的 SQL 语言,包括 DDL(用于定义数…