聚合在Elasticsearch中的使用及示例验证

聚合在Elasticsearch中的使用

系统中使用的ES环境不一定每篇文章都有,但是可以在合集中找到,关注《醉鱼Java》一起进步

环境

  • elasticsearch 8.1

搭建

version: '3.8'
services:cerebro:image: lmenezes/cerebro:0.8.3container_name: cerebroports:- "9000:9000"command:- -Dhosts.0.host=http://eshot:9200networks:- elastickibana:image: docker.elastic.co/kibana/kibana:8.1.3container_name: kibanaenvironment:- I18N_LOCALE=zh-CN- XPACK_GRAPH_ENABLED=true- TIMELION_ENABLED=true- XPACK_MONITORING_COLLECTION_ENABLED="true"- ELASTICSEARCH_HOSTS=http://eshot:9200- server.publicBaseUrl=http://192.168.160.234:5601ports:- "5601:5601"networks:- elasticeshot:image: elasticsearch:8.1.3container_name: eshotenvironment:- node.name=eshot- cluster.name=es-docker-cluster- discovery.seed_hosts=eshot,eswarm,escold- cluster.initial_master_nodes=eshot,eswarm,escold- bootstrap.memory_lock=true- "ES_JAVA_OPTS=-Xms512m -Xmx512m"- xpack.security.enabled=false- node.attr.node_type=hotulimits:memlock:soft: -1hard: -1volumes:- D:\zuiyuftp\docker\es8.1\eshot\data:/usr/share/elasticsearch/data- D:\zuiyuftp\docker\es8.1\eshot\logs:/usr/share/elasticsearch/logs- D:\zuiyuftp\docker\es8.1\eshot\plugins:/usr/share/elasticsearch/pluginsports:- 9200:9200networks:- elasticeswarm:image: elasticsearch:8.1.3container_name: eswarmenvironment:- node.name=eswarm- cluster.name=es-docker-cluster- discovery.seed_hosts=eshot,eswarm,escold- cluster.initial_master_nodes=eshot,eswarm,escold- bootstrap.memory_lock=true- "ES_JAVA_OPTS=-Xms512m -Xmx512m"- xpack.security.enabled=false- node.attr.node_type=warmulimits:memlock:soft: -1hard: -1volumes:- D:\zuiyuftp\docker\es8.1\eswarm\data:/usr/share/elasticsearch/data- D:\zuiyuftp\docker\es8.1\eswarm\logs:/usr/share/elasticsearch/logs- D:\zuiyuftp\docker\es8.1\eshot\plugins:/usr/share/elasticsearch/pluginsnetworks:- elasticescold:image: elasticsearch:8.1.3container_name: escoldenvironment:- node.name=escold- cluster.name=es-docker-cluster- discovery.seed_hosts=eshot,eswarm,escold- cluster.initial_master_nodes=eshot,eswarm,escold- bootstrap.memory_lock=true- "ES_JAVA_OPTS=-Xms512m -Xmx512m"- xpack.security.enabled=false- node.attr.node_type=coldulimits:memlock:soft: -1hard: -1volumes:- D:\zuiyuftp\docker\es8.1\escold\data:/usr/share/elasticsearch/data- D:\zuiyuftp\docker\es8.1\escold\logs:/usr/share/elasticsearch/logs- D:\zuiyuftp\docker\es8.1\eshot\plugins:/usr/share/elasticsearch/pluginsnetworks:- elastic# volumes:
#   eshotdata:
#     driver: local
#   eswarmdata:
#     driver: local
#   escolddata:
#     driver: localnetworks:elastic:driver: bridge

什么是聚合?

在Elasticsearch中,聚合是一种功能强大的数据处理技术,它允许我们对索引中的数据进行多种计算和分析操作。聚合可以理解为对数据集进行分组,并在每个分组上执行各种指标计算,类似于SQL中的GROUP BY和聚合函数。

示例数据

为了验证聚合功能,我们将使用一个示例数据集,假设我们有一个存储了商品信息的索引,包含以下字段:

  1. product_name:商品名称
  2. category:商品分类
  3. price:商品价格
  4. quantity:商品数量
  5. manufacturer:制造商
  6. timestamp:记录时间戳

下面我们导入测试数据

创建索引

PUT /zfc-doc-000001
{"settings": {"index":{"number_of_shards":3,"number_of_replicas":2}},"mappings": {"properties": {"product_name":{"type":"keyword"},"category":{"type":"keyword"},"price":{"type": "integer"},"quantity":{"type": "integer"},"manufacturer":{"type": "keyword"},"timestamp":{"type": "date","format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis" }}}
}

添加数据

PUT _bulk
{"index":{"_index":"zfc-doc-000002","_id":"1"}}
{"product_name": "iPhone 12","category": "Electronics","price": 999,"quantity": 50,"manufacturer": "Apple","timestamp": "2023-07-24 10:00:00"}
{"index":{"_index":"zfc-doc-000002","_id":"2"}}
{"product_name": "Samsung Galaxy S21","category": "Electronics","price": 799,"quantity": 30,"manufacturer": "Samsung","timestamp": "2023-07-24 11:30:00"}
{"index":{"_index":"zfc-doc-000002","_id":"3"}}
{"product_name": "Sony Bravia 65-inch TV","category": "Electronics","price": 1499,"quantity": 20,"manufacturer": "Sony","timestamp": "2023-07-24 13:15:00"}
{"index":{"_index":"zfc-doc-000002","_id":"4"}}
{"product_name": "HP Spectre x360","category": "Electronics","price": 1299,"quantity": 25,"manufacturer": "HP","timestamp": "2023-07-24 15:45:00"}
{"index":{"_index":"zfc-doc-000002","_id":"5"}}
{"product_name": "Dell XPS 15", "category": "Electronics","price": 1399,"quantity": 15,"manufacturer": "Dell","timestamp": "2023-07-24 17:20:00"}
{"index":{"_index":"zfc-doc-000002","_id":"6"}}
{"product_name": "Nike Air Zoom Pegasus 38", "category": "Sports","price": 119,"quantity": 100,"manufacturer": "Nike","timestamp": "2023-07-24 09:30:00"}
{"index":{"_index":"zfc-doc-000002","_id":"7"}}
{"product_name": "Adidas Ultraboost 21","category": "Sports","price": 129,"quantity": 80,"manufacturer": "Adidas","timestamp": "2023-07-24 10:45:00"}
{"index":{"_index":"zfc-doc-000002","_id":"8"}}
{"product_name": "Canon EOS Rebel T7i","category": "Electronics","price": 699,"quantity": 10,"manufacturer": "Canon","timestamp": "2023-07-24 14:05:00"}
{"index":{"_index":"zfc-doc-000002","_id":"9"}}
{"product_name": "LG 55-inch 4K TV", "category": "Electronics","price": 899,"quantity": 30,"manufacturer": "LG","timestamp": "2023-07-24 16:30:00"}
{"index":{"_index":"zfc-doc-000002","_id":"10"}}
{"product_name": "Lenovo ThinkPad X1 Carbon", "category": "Electronics","price": 1599,"quantity": 18,"manufacturer": "Lenovo","timestamp": "2023-07-24 18:10:00"}

聚合示例

1. 词条聚合(Terms Aggregation)

词条聚合是一种用于对文本字段进行分组的聚合方式,它会将相同值的文档分到同一个桶(Bucket)中,并计算每个桶中文档的数量。

示例查询:

GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "category_count": {
      "terms": {
        "field""category",
        "size"10
      }
    }
  }
}

解释:

  • "size": 0:表示只返回聚合结果,不返回实际文档数据。

  • "aggs":定义聚合操作。

  • "category_count":自定义的聚合名称,用于标识结果。

  • "terms":指定使用词条聚合。

  • "field": "category":指定要进行聚合的字段。

2. 嵌套聚合(Nested Aggregation)

嵌套聚合允许在一个桶内进行更深层次的聚合操作。例如,我们可以先按分类分组,然后在每个分类内再按制造商进行分组,并计算每个分类下的平均价格。

示例查询:

GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "category_group": {
      "terms": {
        "field""category",
        "size"10
      },
      "aggs": {
        "avg_price": {
          "avg": {
            "field""price"
          }
        }
      }
    }
  }
}

解释:

  • "aggs":定义聚合操作。
  • "category_group":自定义的聚合名称,用于标识结果。
  • "terms":指定使用词条聚合。
  • "field": "category":指定要进行聚合的字段。
  • "avg_price":自定义的聚合名称,用于标识结果。
  • "avg":指定使用平均值聚合。
  • "field": "price":指定要进行聚合的数值字段。

3.直方图聚合示例(Histogram)

假设我们希望根据商品价格(price字段)创建一个价格区间的直方图,将商品按照价格范围进行分组,并统计每个价格区间内的商品数量。

示例查询:

GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "price_histogram": {
      "histogram": {
        "field""price",
        "interval"200
      }
    }
  }
}

解释:

  • "aggs":定义聚合操作。
  • "price_histogram":自定义的聚合名称,用于标识结果。
  • "histogram":指定使用直方图聚合。
  • "field": "price":指定要进行聚合的数值字段,即商品价格。
  • "interval": 200:指定直方图的间隔大小,这里设置为200表示将价格范围划分为200的区间,例如:0-200、200-400、400-600等。

4.范围聚合示例(Range)

范围聚合允许我们根据指定的范围条件将文档分组,例如:按价格范围进行分组并统计每个价格范围内的商品数量。

示例查询:

GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "price_ranges": {
      "range": {
        "field""price",
        "ranges": [
          { "from"0"to"200 },
          { "from"200"to"500 },
          { "from"500"to"1000 },
          { "from"1000 }
        ]
      }
    }
  }
}

解释:

  • "aggs":定义聚合操作。
  • "price_ranges":自定义的聚合名称,用于标识结果。
  • "range":指定使用范围聚合。
  • "field": "price":指定要进行聚合的数值字段,即商品价格。
  • "ranges":指定价格范围的条件数组。
    • { "from": 0, "to": 200 }:表示价格从0到200之间的商品。
    • { "from": 200, "to": 500 }:表示价格从200到500之间的商品。
    • { "from": 500, "to": 1000 }:表示价格从500到1000之间的商品。
    • { "from": 1000 }:表示价格大于等于1000的商品。

5. 统计聚合(Stats Aggregation)

统计聚合可以对数值字段进行计算,包括最小值、最大值、平均值、总和和文档数量。

示例查询:

GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "price_stats": {
      "stats": {
        "field""price"
      }
    }
  }
}

解释:

  • "aggs":定义聚合操作。
  • "price_stats":自定义的聚合名称,用于标识结果。
  • "stats":指定使用统计聚合。
  • "field": "price":指定要进行聚合的数值字段。

我们上面在统计聚合中可以获取很多值,那么我们也可以细化单独获取某一个的聚合结果。

6. 平均值聚合(Avg Aggregation)


GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "avg_price": {
      "avg": {
        "field""price"
      }
    }
  }
}

7. 总和聚合(Sum Aggregation)

GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "total_price": {
      "sum": {
        "field""price"
      }
    }
  }
}

8. 最小值聚合(Min Aggregation)

GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "min_price": {
      "min": {
        "field""price"
      }
    }
  }
}

9. 最大值聚合(Max Aggregation)

GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "max_price": {
      "max": {
        "field""price"
      }
    }
  }
}

10. 扩展统计聚合(Extended Stats Aggregation)

GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "price_stats_extended": {
      "extended_stats": {
        "field""price"
      }
    }
  }
}

11. 百分位数聚合(Percentiles Aggregation)

GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "price_percentiles": {
      "percentiles": {
        "field""price",
        "percents": [25507590]
      }
    }
  }
}

12. 日期直方图聚合(Date Histogram Aggregation)

假设有一个名为timestamp的日期字段,我们可以进行日期直方图聚合,按照日期进行分组并统计每个时间段内的文档数量。

GET zfc-doc-000002/_search
{
  "size"0,
  "aggs": {
    "date_histogram_agg": {
      "date_histogram": {
        "field""timestamp",
        "fixed_interval""1h"
      }
    }
  }
}

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/29116.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习】【风格迁移】Visual Concept Translator,一般图像到图像的翻译与一次性图像引导,论文

General Image-to-Image Translation with One-Shot Image Guidance 论文:https://arxiv.org/abs/2307.14352 代码:https://github.com/crystalneuro/visual-concept-translator 文章目录 Abstract1. Introduction2. 相关工作2.1 图像到图像转换2.2. Di…

一键登录和短信验证登录,到底有什么区别?

一键登录是什么? 本机号码一键登录验证是一种登录认证方式,通过获取用户手机上的本机号码来验证用户身份,从而实现快捷登录和简化登录流程的目的。 在使用一键登录时,首先需要用户在登录页面选择使用本机号码一键登录&#xff0…

ROS学习笔记之——路径规划及avoid obstacles

之前博客《ROS学习笔记之——Navigation Stack及路径规划》介绍了navigation stack,其中涉及到的amcl、路径规划以及避障还没有详细的展开 目录 AMCL 路径规划 全局路径规划中的地图 栅格地图(Grid Map) 概率图(Cost Map) 特征地图(Feature Map) 拓扑地图(Topo…

排序-堆排序

给你一个整数数组 nums,请你将该数组升序排列。 输入:nums [5,2,3,1] 输出:[1,2,3,5] 输入:nums [5,1,1,2,0,0] 输出:[0,0,1,1,2,5] 思路直接看我录制的视频吧 算法-堆排序_哔哩哔哩_bilibili 实现代码如下所示&…

网络防御(2)

1. 什么是防火墙? 2. 状态防火墙工作原理? 3. 防火墙如何处理双通道协议? 一、什么是防火墙? 防火墙是一种网络安全设备或软件,用于保护计算机网络免受未经授权的访问,并管理网络流量。它作为一个安全边界…

Android中级——RemoteView

RemoteView RemoteView的应用NotificationWidgetPendingIntent RemoteViews内部机制模拟RemoteViews RemoteView的应用 Notification 如下开启一个系统的通知栏,点击后跳转到某网页 public class MainActivity extends AppCompatActivity {private static final …

【Linux取经路】进程的奥秘

文章目录 1、什么是进程?1.1 自己写一个进程 2、操作系统如何管理进程?2.1 描述进程-PCB2.2 组织进程2.3 深入理解进程 3、Linux环境下的进程3.1 task_struct3.2 task_struct内容分类3.3 组织进程3.4 查看进程属性 4、结语 1、什么是进程? 在…

软件单元测试

单元测试目的和意义 对于非正式的软件(其特点是功能比较少,后续也不有新特性加入,不用负责维护),我们可以使用debug单步执行,内存修改,检查对应的观测点是否符合要求来进行单元测试&#xff0c…

把网站改为HTTPS访问方法

HTTPS是使用TSL/SSL加密超文本传输协议的扩展,用于跨网络的安全传输。网站更改为HTTPS,直接在网站形象上可以得到提升,更重要的是您的网站肯定会在排名和提升方面受益。机密信息的交换需要受到保护,以阻止未经授权的访问。 加密&a…

如何通过 4 个简单步骤基于ESP32部署 Arduino 机器学习分类器

步骤 1. 加载数据 为了训练分类器,我们需要一些数据。如果您从零开始并且还没有首选的文件夹结构,我建议您创建一个文件夹来保存您收集的数据。 .csv在此文件夹中,为每个要分类的类创建一个专用文件 ( ),并在每行上放置一个示例。如果这样做,您可以使用下一个函数来加载…

四十八.图卷积网络(GCN)

1.卷积神经网络 CNN 在图像识别等任务中具有重要作用,主要是因为 CNN 利用了图片(信号)在其域中的局部平移不变性。由于图结构不存在平移不变性,所以 CNN 无法直接在图上进行卷积。 1.1局部平移不变性 CNN 之所以能成为图像领域…

类加载机制——双亲委派机制

类加载器分类 类加载器 类加载器(英文:ClassLoader)负责加载 .class 字节码文件,.class 字节码文件在文件开头有特定的文件标识。ClassLoader 只负责 .class 字节码文件的加载,至于它是否可以运行,则由 E…

kafka-事务

1. 事务的5个API // 1初始化事务 void initTransactions();// 2开启事务 void beginTransaction() throws ProducerFencedException;// 3在事务内提交已经消费的偏移量&#xff08;主要用于消费者&#xff09; void sendOffsetsToTransaction(Map<TopicPartition, OffsetAn…

Vue-组件二次封装

本次对el-input进行简单封装进行演示 封装很简单&#xff0c;就给激活样式的边框(主要是功能) 本次封装主要使用到vue自带的几个对象 $attrs&#xff1a;获取绑定在组件上的所有属性$listeners: 获取绑定在组件上的所有函数方法$slots&#xff1a; 获取应用在组件内的所有插槽 …

成功解决Android设备adb连接后显示device unauthorized

一、提出问题 在电脑通过USB连接新的Android设备&#xff0c;想要通过adb来进行一些操作时&#xff0c;却发现命令提示符上在输入下面命令后显示设备未授权的信息也就是"unauthorized" adb devices二、不可行的解决方案 有人提出的解决方案是打开Android设备的开发…

测试开发(一) 使用Vue开发chrome插件

目录 一、引言 二、功能说明 三、【配置】操作演示 四、【请求拦截】演示 不断访问博客&#x

检测前端是否可以ping通后端返回的ip地址

检测前端是否可以ping通后端返回的ip地址 前端检测是否可ping通ip地址&#xff08;PC端&#xff09;前端检测是否可ping通ip地址&#xff08;uniapp小程序端&#xff09; 前端检测是否可ping通ip地址&#xff08;PC端&#xff09; // 前端检测是否可ping通ip地址 ping…

2023年新手如何学剪辑视频 想学视频剪辑如何入门

随着短视频、vlog等媒体形式的兴起&#xff0c;视频剪辑已经成为了热门技能。甚至有人说&#xff0c;不会修图可以&#xff0c;但不能不会剪视频。实际上&#xff0c;随着各种智能软件的发展&#xff0c;视频剪辑已经变得越来越简单。接下来&#xff0c;一起来看看新手如何学剪…

【ChatGPT 指令大全】怎么使用ChatGPT来帮我们写作

在数字化时代&#xff0c;人工智能为我们的生活带来了无数便利和创新。在写作领域&#xff0c;ChatGPT作为一种智能助手&#xff0c;为我们提供了强大的帮助。不论是作文、文章&#xff0c;还是日常函电&#xff0c;ChatGPT都能成为我们的得力助手&#xff0c;快速提供准确的文…

MySQL — MVCC

文章目录 MVCCMVCC 实现原理隐藏字段undo logundo log的用途undo log类型 版本链ReadView MVCC InnoDB是一个多版本的存储引擎。它保留有关已更改行的旧版本的信息&#xff0c;以支持并发和回滚等事务性特性。这些信息存储在undo表空间中的数据结构称为回滚段。InnoDB使用回滚…