【基础篇】第5章 Elasticsearch 数据聚合与分析

在Elasticsearch的庞大功能体系中,数据聚合与分析扮演着至关重要的角色,它使我们能够从海量数据中提炼出有价值的信息,为决策提供依据。本章将深入探讨Elasticsearch的聚合功能,从基本概念到常见类型的实践,让你掌握如何高效地对数据进行分组、计数、统计和分析。

5.1 聚合简介

Elasticsearch的聚合功能允许用户对索引中的数据进行汇总和分析,它不仅仅是简单的计数或求和,而是涵盖了从基本统计到复杂数据分布分析的全方位能力。聚合操作通过在搜索请求中定义,可以在一次查询中同时返回搜索结果和聚合结果,极大地增强了数据探索的灵活性和效率。

5.2 常用聚合类型

Elasticsearch提供的聚合功能非常丰富,能够满足多种数据分析需求。以下是对几种常用聚合类型的详细说明,包括它们的工作原理、适用场景以及具体案例,帮助读者更好地理解和应用这些强大的数据处理工具。

5.2.1 Terms聚合

概念: terms聚合是最基础也是最常用的聚合类型,它根据指定字段的值进行分组,每个唯一的值对应一个桶(bucket),并统计每个桶内文档的数量。这种聚合非常适合进行分类统计,比如统计网站上不同类别的文章数量。

案例:
假设有一个博客文章索引,我们想统计每个作者的文章数量。

GET blog_posts/_search
{"size": 0,"aggs": {"authors": {"terms": {"field": "author.keyword","size": 10}}}
}

结果示例:

{"aggregations": {"authors": {"buckets": [{"key": "Alice", "doc_count": 35},{"key": "Bob", "doc_count": 22},{"key": "Charlie", "doc_count": 18},...]}}
}
5.2.2 Histogram聚合

概念: histogram聚合将数值型字段的值域分割成多个区间(桶),每个区间代表一个范围,然后统计落入每个区间内的文档数量。它适用于分析数值数据的分布情况,比如分析商品价格的分布。

案例:
分析商品价格区间内的销售分布,以100元为间隔。

GET sales/_search
{"aggs": {"price_histogram": {"histogram": {"field": "price","interval": 100}}}
}

结果示例:

{"aggregations": {"price_histogram": {"buckets": [{"key": 0, "doc_count": 50},{"key": 100, "doc_count": 30},{"key": 200, "doc_count": 20},...]}}
}
5.2.3 Date Histogram聚合

概念: date_histogram聚合与histogram相似,但专用于日期字段,按时间间隔(如天、周、月等)分组,用于分析时间序列数据。例如,分析网站每天的访问量。

案例:
分析每天的访问记录数量。

GET website_logs/_search
{"aggs": {"visits_per_day": {"date_histogram": {"field": "access_date","calendar_interval": "day"}}}
}

结果示例:

{"aggregations": {"visits_per_day": {"buckets": [{"key_as_string": "2023-04-01T00:00:00.000Z", "key": 1680230400000, "doc_count": 235},{"key_as_string": "2023-04-02T00:00:00.000Z", "key": 1680316800000, "doc_count": 250},...]}}
}
5.2.4 Metrics聚合

概念: 指标聚合用于计算单个数值指标,如平均值(avg)、最大值(max)、最小值(min)、总和(sum)等。它可以单独使用,但更多时候作为桶聚合内的子聚合,对每个桶中的数据进行进一步的数值分析。

案例:
在每个作者的文章数量统计基础上,进一步计算每个作者文章的平均评分。

GET blog_posts/_search
{"size": 0,"aggs": {"authors": {"terms": {"field": "author.keyword","size": 10},"aggs": {"average_rating": {"avg": {"field": "rating"}}}}}
}

结果示例:

{"aggregations": {"authors": {"buckets": [{"key": "Alice", "doc_count": 35, "average_rating": {"value": 4.2}},{"key": "Bob", "doc_count": 22, "average_rating": {"value": 3.8}},...]}}
}

通过这些案例,我们可以看到Elasticsearch的聚合功能不仅强大而且灵活,能够满足多样化的数据分析需求。掌握这些常用聚合类型及其应用场景,是进行高效数据探索和分析的重要基础。

5.3 桶与指标聚合

Elasticsearch的聚合功能之所以强大,很大程度上得益于其灵活的桶聚合(Bucket Aggregations)和指标聚合(Metric Aggregations)机制。这两种聚合类型相辅相成,共同构成了复杂数据分析的基础。本节将更深入地探讨这两类聚合的工作原理、相互作用方式以及在实际应用中的高级用法。

5.3.1 桶聚合(Bucket Aggregations)的深入解析

桶聚合,顾名思义,是将数据划分到不同的“桶”中,每个桶代表一个数据范围或类别。它的核心作用是将数据分组,为后续的分析提供结构框架。主要的桶聚合类型包括termshistogramdate_histogram等,前面已有介绍。更进一步地,桶聚合还可以嵌套,形成层级结构,使得数据细分和分析更为精细。

高级用法:

  • 嵌套桶聚合:通过在桶内嵌套其他桶聚合,可以实现多维度的数据分析。例如,在按月份统计销售量的同时,还可以按产品类别细分,即在date_histogram桶内嵌套一个terms桶。
  • 复合桶聚合:如range聚合,根据数值字段的范围划分桶,特别适用于价格区间分析等场景。
  • Missing桶:用于捕捉缺失值,单独分析没有特定字段数据的文档。
5.3.2 指标聚合(Metric Aggregations)的深化应用

指标聚合用于计算每个桶内文档的数值型指标,如平均值、总和、最大值、最小值等。它通常与桶聚合结合使用,为每个分组提供量化分析结果。主要的指标聚合类型有avgsumminmaxcardinality(唯一值计数)等。

高级用法:

  • 多指标聚合:在同一个桶内可以定义多个指标聚合,一次性获取多个统计指标,如同时计算每个类别的平均销售额和销售笔数。
  • Pipeline聚合:这是一种特殊的指标聚合,它允许使用先前桶或指标聚合的结果进行进一步的计算,如计算百分比变化、移动平均等。这为复杂数据分析提供了强大的支持。
  • Top Hits聚合:在每个桶内返回最相关的文档,这对于分析每个分组的代表性文档非常有用。
5.3.3 桶与指标聚合的协同工作

桶聚合与指标聚合的结合使用是Elasticsearch数据分析的核心所在。桶聚合负责数据的分组,为每个组创建一个上下文;指标聚合则在此上下文中进行数值计算,提供每个分组的统计信息。这种结构化的方法使得用户能够从宏观到微观,层层深入地探索数据。

小结

通过本章的学习,我们不仅认识到了Elasticsearch聚合功能的重要性,还深入探讨了多种常用聚合类型及其应用场景。桶聚合与指标聚合的结合使用,为我们提供了强大的数据分组和统计能力,是进行数据分析和报告制作的有力工具。掌握了这些基础,你将能够更加自信地面对数据海洋,从中挖掘出宝贵的信息宝藏。接下来的旅程,【高级篇】第6章《高级查询与搜索优化》,将带领大家探索更高级的查询技术与性能优化策略,进一步提升Elasticsearch的使用效能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/38618.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch 使用误区之二——频繁更新文档

在使用 Elasticsearch 时,频繁更新文档是一种常见误区。这不仅影响性能,还可能导致系统资源的浪费。 理解 Elasticsearch 的文档更新机制对于优化性能至关重要。 关于 Elasticsearch 更新操作,常见问题如下: ——https://t.zsxq.c…

Spring Cloud实战:构建分布式系统解决方案

Spring Cloud实战:构建分布式系统解决方案 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将深入探讨如何使用Spring Cloud来构建分布式系统…

剖析DeFi交易产品之UniswapV4:概述篇

本文首发于公众号:Keegan小钢 UniswapV4 与 UniswapV3 相比,算法上并没有什么改变,依然还是采用集中流动性模型,但架构上变化很大,包括功能架构,也包括技术架构。相比之前的版本,UniswapV4 最大…

百元蓝牙耳机推荐2024,百元蓝牙耳机排行榜盘点

在2024年面对琳琅满目的蓝牙耳机选项,消费者往往难以抉择,特别是在预算有限的情况下,如何在众多产品中挑选出既满足质量又符合预算的耳机成为了一个不小的挑战。 为了帮助大家在繁多的选择中找到真正物有所值的百元蓝牙耳机,我们…

UnityUGUI之一:image和Rawimage

image组件的相关属性 其中SpriteMode,若为单个图片则为Single,图片集则为Multiple 图集的切割 点击Slice可以进行自动切割 为且每个格子都可以进行单独的九宫格切割 当图片被九宫格切割再进行拉伸以后,九宫格的四角不会被拉伸 Tiled&#x…

构建支持多平台的返利App跨平台开发策略

构建支持多平台的返利App跨平台开发策略 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将讨论如何构建支持多平台的返利App,特别关注跨平台…

一棵B+树可以存放多少行数据

以MySQL InnoDB为例。InnoDB存储引擎最小储存单元是页,一页大小固定是16KB,使用该引擎的表为索引组织表。B树叶子存的是数据,内部节点存的是键值和指针。索引组织表通过非叶子节点的二分查找法以及指针确定数据在哪个页中,进而再去…

数据治理不再头疼,筛斗数据为您打造无缝数据处理体验

在当今数字化时代,数据已成为企业最宝贵的资产之一。然而,随着数据量的激增和数据来源的多样化,数据治理成为许多企业面临的一大挑战。繁琐的数据提取、混乱的数据结构和不清晰的数据质量,往往让企业陷入数据处理的泥潭。幸运的是…

如何在本地一键配置最强国产大模型

自从OpenAI的ChatGPT横空出世以来,国内外各类大语言模型(LLM)层出不穷,其中不乏Google的Gemini、Claude、文心一言等等。相较于竞争激烈的商业模型赛道,以Llama为代表的开源大模型的进步速度也十分惊人。 伴随着大语言…

CP AUTOSAR标准之MemoryAccess(AUTOSAR_CP_SWS_MemoryAccess)(更新中……)

1 简介和功能概述 该规范描述了AUTOSAR基础软件模块内存访问(MemAcc)的功能、API和配置。   内存访问模块通过基于地址的API提供对不同内存技术设备的访问。内存访问模块始终由一个或多个内存驱动程序(Mem)补充。内存访问模块与内存设备技术无关,可与闪存、EEPROM、RAM或相变…

Python Tkinter:开发一款文件加密解密小工具

在这个信息泄露风险日益增加的时代,使用文件加密工具对于保护个人隐私和企业机密至关重要。 本文介绍了一款小工具——encryptDecrypt,它不仅提供了一个易于使用的图形界面,简化了加密和解密过程,还确保了数据的安全性&#xff0c…

深入解析 androidx.databinding.BaseObservable

在现代 Android 开发中,数据绑定 (Data Binding) 是一个重要的技术,它简化了 UI 和数据之间的交互。在数据绑定框架中,androidx.databinding.BaseObservable 是一个关键类,用于实现可观察的数据模型。本文将详细介绍 BaseObservab…

python-求s=a+aa+aaa+aaaa+aa...a的值(赛氪OJ)

[题目描述] 求 saaaaaaaaaaaa...a 的值,其中 a 是一个一位的整数。 例如 :2222222222222222(此时共有 5 个数相加)。输入格式: 整数 a 和 n ( n 个数相加)。输出格式: s 的值。样例输入 2 2样例输出 24数据…

WSL——忘记root密码(Ubuntu)

1、问题描述 Windows下的WSL(Ubuntu)忘记了root密码,无法使用管理员权限。 2、解决方法 关闭 Ubuntu 窗口。打开 Windows 的 Powershell 或 cmd, 以 root 默认登陆 WSL。 wsl -u root 修改对应用户密码。 # xxx为要修改密码的用…

Stable Diffusion【真人模型】:人脸特美的人像摄影大模型wuhaXL_realisticMixV3.0

今天和大家分享一个基于SDXL的真人大模型:wuhaXL_realisticMix。该模型无需使用LORA**就能生成的特别漂亮的人脸,虽然有时候人脸有些假,但是生成的人脸确实非常漂亮。 该模型底模融合了WhiteXL_realisticMix,训练素材来自于视频转…

Dockerfile构建一个包含多个SpringBoot应用程序的镜像

为什么要使用Dockerfile 构建一个包含多个SpringBoot应用程序的镜像呢? 1、可移植性:Dockerfile 定义了一个标准化的方式来构建Docker镜像,意味着无论在哪个系统上(只要它支持Docker), 都可以使用相同的Dockerfile来构建完全相同的…

pytorch统计学分布

1、pytorch统计学函数 import torcha torch.rand(2,2) print(a) print(torch.sum(a, dim0)) print(torch.mean(a, dim0)) print(torch.prod(a, dim0))print(torch.argmax(a, dim0)) print(torch.argmin(a, dim0)) print(torch.std(a)) print(torch.var(a)) print(torch.median…

如何学好AI绘画?点这里有答案!

前言 地狱难度的求职模式下,“掌握一门技术”的那部分求职者,远比其他人更有竞争力;而拥有出色技术和技能的设计师、以及未来想做设计师的小伙伴们,怎么才能更好实现工作自由? 只有两个字:学习。 学习新…

EE trade:白银什么情况下会暴涨

白银价格的暴涨通常由多种因素共同作用引发,包括宏观经济背景、市场供需变化、地缘政治紧张局势以及金融市场波动等。本文整理了一些具体情况和实例,说明白银在什么情况下可能会暴涨。 1. 宏观经济因素 通货膨胀急剧上升 背景:当通货膨胀急…

电脑怎么录屏幕视频带声音?2种方法教会你

在数字时代的浪潮中,电脑屏幕视频录制已经成为一项潮流且实用的技能。无论是为了创作短视频、分享游戏过程,还是为了记录在线会议或教程,电脑录屏都是非常重要的功能。但是不少的人都会遇上录制好的视频没有声音的困境,面对这种情…