从零开发短视频电商 OpenSearch/Elasticsearch 聚合操作

文章目录

  • 文本字段上的聚合
  • 通用聚合结构
  • 嵌套聚合
  • 聚合类型
    • 指标聚合
      • 平均值/求和等
      • 基数
      • 百分位
      • 统计汇总
      • 热门点击
      • 值计数
    • 桶聚合
      • 日期直方图
      • 直方图
      • 范围聚合
      • 词语聚合

OpenSearch不仅仅是用于搜索的工具。聚合使您能够利用OpenSearch强大的分析引擎分析数据并从中提取统计信息。

聚合的用例各异,从实时分析数据以采取某些行动,到使用OpenSearch仪表板创建可视化仪表板。

OpenSearch可以在毫秒内对大规模数据集执行聚合。与查询相比,聚合消耗更多的CPU周期和内存。

先来个总结表格

聚合类型ElasticsearchSQL
指标聚合(Metric Aggregations)
平均值(Average)avgSELECT AVG(column) FROM table;
基数(Cardinality)cardinalitySELECT COUNT(DISTINCT column) FROM table;
扩展统计(Extended Stats)extended_statsSELECT AVG(column), MIN(column), MAX(column), COUNT(column) FROM table;
地理边界(Geobounds)geobounds无SQL对应,用于地理坐标范围的统计。
矩阵统计(Matrix Stats)matrix_stats无SQL对应,用于多值字段的统计。
最大值(Maximum)maxSELECT MAX(column) FROM table;
最小值(Minimum)minSELECT MIN(column) FROM table;
百分位排名(Percentile Ranks)percentiles_rankSELECT PERCENTILE_CONT(percentage) WITHIN GROUP (ORDER BY column) FROM table;
百分位(Percentile)percentilesSELECT PERCENTILE_CONT(percentage) WITHIN GROUP (ORDER BY column) FROM table;
脚本度量(Scripted Metric)scripted_metric无SQL对应,通过自定义脚本计算度量。
统计信息(Stats)statsSELECT AVG(column), MIN(column), MAX(column), COUNT(column), SUM(column) FROM table;
求和(Sum)sumSELECT SUM(column) FROM table;
前N条记录(Top Hits)top_hits无SQL对应,返回每个桶中排序后的前N条记录。
值计数(Value Count)value_countSELECT COUNT(column) FROM table;
桶聚合(Bucket Aggregations)ElasticsearchSQL
邻接矩阵(Adjacency Matrix)adjacency_matrix无SQL对应,用于关系型数据的统计。
日期直方图(Date Histogram)date_histogramSELECT COUNT(column), DATE_TRUNC('interval', date_column) FROM table GROUP BY DATE_TRUNC('interval', date_column);
日期范围(Date Range)date_rangeSELECT COUNT(column) FROM table WHERE date_column BETWEEN start_date AND end_date;
多样化采样(Diversified Sampler)diversified_sampler无SQL对应,用于多样本的统计。
过滤器(Filter)filterSELECT COUNT(column) FROM table WHERE condition;
多过滤器(Filters)filters无SQL对应,用于同时应用多个过滤器的统计。
地理距离(Geodistance)geodistance无SQL对应,用于地理坐标距离的统计。
地理哈希网格(Geohash Grid)geohash_grid无SQL对应,用于地理坐标哈希网格的统计。
地理六边形网格(Geohex Grid)geohex_grid无SQL对应,用于地理坐标六边形网格的统计。
地理瓦片网格(Geotile Grid)geotile_grid无SQL对应,用于地理坐标瓦片网格的统计。
全局(Global)global无SQL对应,用于对整个数据集执行聚合而不分组。
直方图(Histogram)histogramSELECT COUNT(column), FLOOR(column/interval)*interval as range FROM table GROUP BY range;
IP范围(IP Range)ip_range无SQL对应,用于IP地址范围的统计。
缺失值(Missing)missingSELECT COUNT(column) FROM table WHERE column IS NULL;
多词项(Multi-terms)multi_terms无SQL对应,用于多个词项的统计。
嵌套(Nested)nested无SQL对应,用于嵌套文档的统计。
范围(Range)rangeSELECT COUNT(column) FROM table WHERE column BETWEEN min AND max;
反向嵌套(Reverse Nested)reverse_nested无SQL对应,用于反向嵌套文档的统计。
采样器(Sampler)sampler无SQL对应,用于对样本进行统计。
显著项(Significant Terms)significant_terms无SQL对应,用于显著项的统计。
显著文本(Significant Text)significant_text无SQL对应,用于显著文本的统计。
词项(Terms)termsSELECT COUNT(column) FROM table GROUP BY column;

文本字段上的聚合

默认情况下,OpenSearch不支持在文本字段上进行聚合。因为文本字段被标记化,对文本字段的聚合必须将标记化过程反转回其原始字符串,然后基于此进行聚合。这种操作消耗大量内存并降低集群性能。

虽然您可以通过在映射中将 fielddata 参数设置为 true 来启用文本字段的聚合,但聚合仍然基于标记化单词而不是原始文本。

我们建议将文本字段的原始版本保留为可聚合的 keyword 字段。

在这种情况下,您可以对 title.raw 字段而不是 title 字段执行聚合:

PUT movies
{"mappings": {"properties": {"title": {"type": "text","fielddata": true,"fields": {"raw": {"type": "keyword"}}}}}
}

通用聚合结构

聚合查询的结构如下:

GET _search
{"size": 0,"aggs": {"NAME": {"AGG_TYPE": {}}}
}

如果您只对聚合结果感兴趣而不对查询结果感兴趣,请将 size 设置为 0。

aggs 属性中(如果需要,可以使用 aggregations ),您可以定义任意数量的聚合。每个聚合均由其名称和 OpenSearch 支持的聚合类型之一定义。

聚合的名称可帮助您区分响应中的不同聚合。 AGG_TYPE 属性是您指定聚合类型的位置。

嵌套聚合

聚合内的聚合称为嵌套聚合或子聚合。

指标聚合产生简单的结果,并且不能包含嵌套聚合。

存储桶聚合生成可以嵌套在其他聚合中的文档存储桶。您可以通过在存储桶聚合中嵌套指标和存储桶聚合来对数据执行复杂的分析。

通用嵌套聚合语法

{"aggs": {"name": {"type": {"data"},"aggs": {"nested": {"type": {"data"}}}}}
}

内部 aggs 关键字开始新的嵌套聚合。父聚合和嵌套聚合的语法相同。嵌套聚合在前面的父聚合的上下文中运行。

您还可以将聚合与搜索查询配对,以缩小聚合之前尝试分析的范围。如果您不添加查询,OpenSearch 会隐式使用 match_all 查询。

由于聚合器对所有值都使用 double 数据类型进行处理,因此 2 53 及更大的 long 值是近似值。

聚合类型

聚合主要分为三种类型:

  • 指标聚合 - 计算数字字段上的指标,例如 summinmaxavg
  • 桶聚合 - 根据某些标准对查询结果进行分组。
  • 管道聚合 - 将一个聚合的输出作为另一个聚合的输入。

指标聚合

指标聚合可让您执行简单的计算,例如查找字段的最小值、最大值和平均值。

度量聚合有两种类型:单值度量聚合和多值度量聚合。

  • 单值指标聚合返回单个指标,例如 summinmaxavgcardinality
  • 多值指标聚合返回多个指标。这些包括 statsextended_statsmatrix_statspercentilepercentile_ranksgeo_boundtop_hitsscripted_metric

平均值/求和等

要查找 taxful_total_price 字段的平均值:

GET opensearch_dashboards_sample_data_ecommerce/_search
{"size": 0,"aggs": {"avg_taxful_total_price": { // 这个名字可以随意定义"avg": {  // 求平均值"field": "taxful_total_price" // 在taxful_total_price字段上 操作}}}
}

响应示例

{"took" : 1,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 4675,"relation" : "eq"},"max_score" : null,"hits" : [ ]},"aggregations" : {"avg_taxful_total_price" : { // 呼应前面定义的名称"value" : 75.05542864304813}}
}

基数

cardinality 指标是单值指标聚合,用于计算字段的唯一或不同值的数量。

GET opensearch_dashboards_sample_data_ecommerce/_search
{"size": 0,"aggs": {"unique_products": {"cardinality": {"field": "products.product_id"}}}
}..."aggregations" : {"unique_products" : {"value" : 7033}}
}

基数计数是近似值。如果您的假设商店中有数万种产品,则准确的基数计算需要将所有值加载到哈希集中并返回其大小。这种方法的扩展性不好;它需要大量内存并可能导致高延迟。

您可以使用 precision_threshold 设置来控制内存和准确性之间的权衡。此设置定义阈值,低于该阈值计数预计接近准确。高于此值,计数可能会变得不太准确。 precision_threshold 的默认值为 3,000。支持的最大值为 40,000。

GET opensearch_dashboards_sample_data_ecommerce/_search
{"size": 0,"aggs": {"unique_products": {"cardinality": {"field": "products.product_id","precision_threshold": 10000}}}
}

百分位

GET opensearch_dashboards_sample_data_ecommerce/_search
{"size": 0,"aggs": {"percentile_taxful_total_price": {"percentiles": {"field": "taxful_total_price"}}}
}
...
"aggregations" : {"percentile_taxful_total_price" : {"values" : {"1.0" : 21.984375,"5.0" : 27.984375,"25.0" : 44.96875,"50.0" : 64.22061688311689,"75.0" : 93.0,"95.0" : 156.0,"99.0" : 222.0}}}
}

统计汇总

stats 指标是一个多值指标聚合,它返回所有基本指标,例如 minmaxsumavgvalue_count 在一个聚合查询中。

GET opensearch_dashboards_sample_data_ecommerce/_search
{"size": 0,"aggs": {"stats_taxful_total_price": {"stats": {"field": "taxful_total_price"}}}
}
...
"aggregations" : {"stats_taxful_total_price" : {"count" : 4675,"min" : 6.98828125,"max" : 2250.0,"avg" : 75.05542864304813,"sum" : 350884.12890625}}
}

热门点击

top_hits 指标是一种多值指标聚合,它根据正在聚合的字段的相关性得分对匹配文档进行排名。

from :命中的起始位置。

size :返回的最大命中数。默认值为 3。

sort :匹配的命中如何排序。默认情况下,命中按聚合查询的相关性分数排序。

以下示例返回电子商务数据中排名前 5 的产品:

GET opensearch_dashboards_sample_data_ecommerce/_search
{"size": 0,"aggs": {"top_hits_products": {"top_hits": {"size": 5}}}
}
...
"aggregations" : {"top_hits_products" : {"hits" : {"total" : {"value" : 4675,"relation" : "eq"},"max_score" : 1.0,"hits" : [{"_index" : "opensearch_dashboards_sample_data_ecommerce","_type" : "_doc","_id" : "glMlwXcBQVLeQPrkHPtI","_score" : 1.0,"_source" : {"category" : ["Women's Accessories","Women's Clothing"],"currency" : "EUR","customer_first_name" : "rania","customer_full_name" : "rania Evans","customer_gender" : "FEMALE","customer_id" : 24,"customer_last_name" : "Evans","customer_phone" : "","day_of_week" : "Sunday","day_of_week_i" : 6,"email" : "rania@evans-family.zzz","manufacturer" : ["Tigress Enterprises"],"order_date" : "2021-02-28T14:16:48+00:00","order_id" : 583581,"products" : [{"base_price" : 10.99,"discount_percentage" : 0,"quantity" : 1,"manufacturer" : "Tigress Enterprises","tax_amount" : 0,"product_id" : 19024,"category" : "Women's Accessories","sku" : "ZO0082400824","taxless_price" : 10.99,"unit_discount_amount" : 0,"min_price" : 5.17,"_id" : "sold_product_583581_19024","discount_amount" : 0,"created_on" : "2016-12-25T14:16:48+00:00","product_name" : "Snood - white/grey/peach","price" : 10.99,"taxful_price" : 10.99,"base_unit_price" : 10.99},{"base_price" : 32.99,"discount_percentage" : 0,"quantity" : 1,"manufacturer" : "Tigress Enterprises","tax_amount" : 0,"product_id" : 19260,"category" : "Women's Clothing","sku" : "ZO0071900719","taxless_price" : 32.99,"unit_discount_amount" : 0,"min_price" : 17.15,"_id" : "sold_product_583581_19260","discount_amount" : 0,"created_on" : "2016-12-25T14:16:48+00:00","product_name" : "Cardigan - grey","price" : 32.99,"taxful_price" : 32.99,"base_unit_price" : 32.99}],"sku" : ["ZO0082400824","ZO0071900719"],"taxful_total_price" : 43.98,"taxless_total_price" : 43.98,"total_quantity" : 2,"total_unique_products" : 2,"type" : "order","user" : "rani","geoip" : {"country_iso_code" : "EG","location" : {"lon" : 31.3,"lat" : 30.1},"region_name" : "Cairo Governorate","continent_name" : "Africa","city_name" : "Cairo"},"event" : {"dataset" : "sample_ecommerce"}}...}]}}}
}

值计数

value_count 指标是单值指标聚合,用于计算聚合所基于的值的数量。

GET opensearch_dashboards_sample_data_ecommerce/_search
{"size": 0,"aggs": {"number_of_values": {"value_count": {"field": "taxful_total_price"}}}
}..."aggregations" : {"number_of_values" : {"value" : 4675}}
}

桶聚合

存储桶聚合将文档集分类为存储桶。存储桶聚合的类型决定了给定文档的存储桶。

日期直方图

date_histogram聚合使用日期数学来生成时间序列数据的直方图。

网站每月获得的点击次数

GET opensearch_dashboards_sample_data_logs/_search
{"size": 0,"aggs": {"logs_per_month": {"date_histogram": {"field": "@timestamp","interval": "month"}}}
}...
"aggregations" : {"logs_per_month" : {"buckets" : [{"key_as_string" : "2020-10-01T00:00:00.000Z","key" : 1601510400000,"doc_count" : 1635},{"key_as_string" : "2020-11-01T00:00:00.000Z","key" : 1604188800000,"doc_count" : 6844},{"key_as_string" : "2020-12-01T00:00:00.000Z","key" : 1606780800000,"doc_count" : 5595}]}
}
}

直方图

histogram 聚合根据指定的时间间隔存储文档。

通过 histogram 聚合,您可以非常轻松地可视化给定文档范围内的值的分布。当然,现在 OpenSearch 不会返回实际的图表,这就是 OpenSearch 仪表板的用途。但它会给你 JSON 响应,你可以用它来构建你自己的图表。

以下示例按 10,000 个间隔对 number_of_bytes 字段进行存储:

GET opensearch_dashboards_sample_data_logs/_search
{"size": 0,"aggs": {"number_of_bytes": {"histogram": {"field": "bytes","interval": 10000}}}
}...
"aggregations" : {"number_of_bytes" : {"buckets" : [{"key" : 0.0,"doc_count" : 13372},{"key" : 10000.0,"doc_count" : 702}]}}
}

范围聚合

range 聚合允许您定义每个存储桶的范围。

例如,您可以查找 1000 到 2000、2000 到 3000、3000 到 4000 之间的字节数。在 range 参数中,您可以将范围定义为数组对象。

GET opensearch_dashboards_sample_data_logs/_search
{"size": 0,"aggs": {"number_of_bytes_distribution": {"range": {"field": "bytes","ranges": [{"from": 1000,"to": 2000},{"from": 2000,"to": 3000},{"from": 3000,"to": 4000}]}}}
}...
"aggregations" : {"number_of_bytes_distribution" : {"buckets" : [{"key" : "1000.0-2000.0","from" : 1000.0,"to" : 2000.0,"doc_count" : 805},{"key" : "2000.0-3000.0","from" : 2000.0,"to" : 3000.0,"doc_count" : 1369},{"key" : "3000.0-4000.0","from" : 3000.0,"to" : 4000.0,"doc_count" : 1422}]}}
}

词语聚合

terms 聚合动态地为字段的每个唯一术语创建一个存储桶。

以下示例使用 terms 聚合来查找 Web 日志数据中每个响应代码的文档数:

GET opensearch_dashboards_sample_data_logs/_search
{"size": 0,"aggs": {"response_codes": {"terms": {"field": "response.keyword","size": 10}}}
}...
"aggregations" : {"response_codes" : {"doc_count_error_upper_bound" : 0,"sum_other_doc_count" : 0,"buckets" : [{"key" : "200","doc_count" : 12832},{"key" : "404","doc_count" : 801},{"key" : "503","doc_count" : 441}]}}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/231016.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习 | SVM支持向量机

欲穷千里目,更上一层楼。 一个空间的混乱在更高维度的空间往往意味着秩序。 Machine-Learning: 《机器学习必修课:经典算法与Python实战》配套代码 - Gitee.com 1、核心思想及原理 针对线性模型中分类两类点的直线如何确定。这是一个ill-posed problem。…

从零开始实现分布式服务系统

文章目录 开发前言分布式模型系统图解注册中心模块基础服务模块被依赖的服务模块(日志服务)服务模块(访问服务)运行效果开发总结 开发前言 分布式系统具有高可靠性、高性能、可扩展性、灵活性、数据共享、可靠性和地理分布等优点…

【.NET Core】特性(Attribute)详解

【.NET Core】特性(Attribute)详解 文章目录 【.NET Core】特性(Attribute)详解一、概述二、编写自定义属性2.1 自定义特性的主要步骤2.2 应用AttributeUsageAttributeAttributeTargets 成员Inherited属性AllowMultiple属性 三、声…

【计算机网络】TCP协议——3. 可靠性策略效率策略

前言 TCP是一种可靠的协议,提供了多种策略来确保数据的可靠性传输。 可靠并不是保证每次发送的数据,对方都一定收到;而是尽最大可能让数据送达目的主机,即使丢包也可以知道丢包。 目录 一. 确认应答和捎带应答机制 二. 超时重…

小信砍柴的题解

目录 原题描述: 时间:1s 空间:256M 题目描述: 输入格式: 输出格式: 样例1输入: 题目大意: 主要思路: 注意事项: 总代码: 原题描述&#…

计网01 计算机网络基础

一、计算机网络基本概念 1、什么是计算机网络 网络:由两台或多台计算机通过网络设备串联(网络设备通过传输介质串联)而形成的网络网络设备:计算机、路由交换、防火墙、上网行为管理等传输介质:双绞线(网线…

汇编语言学习(2)

更好的阅读体验,请点击 YinKai’s Blog。 基本语法 汇编程序可以分为三个部分: 数据部分(data section)未初始化数据部分(bss section)文本部分(text section) data 部分 ​ 数据…

微服务——服务异步通讯(MQ高级)

MQ的一些常见问题 消息可靠性 生产者消息确认 返回ack,怎么感觉这么像某个tcp的3次握手。 使用资料提供的案例工程. 在图形化界面创建一个simple.queue的队列,虚拟机要和配置文件里面的一样。 SpringAMQP实现生产者确认 AMQP里面支持多种生产者确认的类…

【华为】文档中命令行约定格式规范(命令行格式规范、命令行行为规范、命令行参数格式、命令行规范)

文章目录 命令行约定格式**粗体&#xff1a;命令行关键字***斜体&#xff1a;命令行参数*[ ]&#xff1a;可选配置{ x | y | ... } 和 [ x | y | ... ]&#xff1a;选项{ x | y | ... }* 和 [ x | y | ... ]*&#xff1a;多选项&<1-n>&#xff1a;重复参数#&#xff…

xtu oj 1375 Fabonacci

题目描述 小明非常喜欢Fibonacci数列&#xff0c;数列为 f11,f22,fnfn−1fn−2。 小明想知道对于一个整数n&#xff0c;使得nfifjfk的组合有多少种&#xff1f; 比如5113 或者 5122,有2种。注意 122 和 212 被认为是同一种。 输入 第一行是一个整数T(1≤T≤1000)&#xff0c…

kill编译异常处理

当kill编译时出现如下警告 Build target Target 1 linking... *** WARNING L16: UNCALLED SEGMENT, IGNORED FOR OVERLAY PROCESSSEGMENT: ?PR?_LCD_SHOWCHAR?LCD1602 *** WARNING L16: UNCALLED SEGMENT, IGNORED FOR OVERLAY PROCESSSEGMENT: ?PR?_LCD_SHOWSTRING?LCD…

SpringSecurity 手机号登录

一、工作流程 1.向手机发送验证码&#xff0c;第三方短信发送平台&#xff0c;如阿里云短信。 2.手机获取验证码后&#xff0c;在表单中输入验证码。 3.使用自定义过滤器​SmsCodeValidateFilter​。 4.短信校验通过后&#xff0c;使用自定义手机认证过滤器​SmsCodeAuthentic…

【并发编程】线程基础

目录 1、线程基础 1.1基本概念 1.1.1 进程与线程 1.1.1.2 什么是线程 1.1.1.3 两者间的联系和区别 1.1.2 多线程 1.1.2.1 什么是多线程 1.1.2.2 多线程的局限 1.1.3串行,并行,并发 1.1.3.1 什么是串行 1.1.3.2 什么是并行 1.1.3.3 什么是并发 1.1.3.4 区别和联系…

UE4/UE5 日志插件(基于spdlog)

1 解决问题 对于高频日志序列化到本地的需求&#xff0c;spdlog肯定完美满足。 源码地址&#xff1a;https://github.com/gabime/spdlog 博主下载的版本为 spdlog-1.12.0&#xff0c;各位大佬可以根绝自己爱好选择。 2 过程介绍 大概目录&#xff1a; SpdlogLibC目录下是对…

Qt/C++音视频开发60-坐标拾取/按下鼠标获取矩形区域/转换到视频源真实坐标

一、前言 通过在通道画面上拾取鼠标按下的坐标&#xff0c;然后鼠标移动&#xff0c;直到松开&#xff0c;根据松开的坐标和按下的坐标&#xff0c;绘制一个矩形区域&#xff0c;作为热点或者需要电子放大的区域&#xff0c;拿到这个坐标区域&#xff0c;用途非常多&#xff0…

C语言之文件操作(下)

C语言之文件操作&#xff08;下&#xff09; 文章目录 C语言之文件操作&#xff08;下&#xff09;1. 文件的顺序读写1.1 文件的顺序读写函数1.1.1 字符输入/输出函数&#xff08;fgetc/fputc&#xff09;1.1.2 ⽂本⾏输⼊/输出函数&#xff08;fgets/fputs&#xff09;1.1.3 格…

工业应用新典范,飞凌嵌入式FET-D9360-C核心板发布!

来源&#xff1a;飞凌嵌入式官网 当前新一轮科技革命和产业变革突飞猛进&#xff0c;工业领域对高性能、高可靠性、高稳定性的计算需求也在日益增长。为了更好地满足这一需求&#xff0c;飞凌嵌入式与芯驰科技&#xff08;SemiDrive&#xff09;强强联合&#xff0c;基于芯驰D9…

vue3.0基础

1. setup函数 vue单页面使用到的变量和方法都定义在setup函数中,return后才能被页面引用 export default {setup(){const name 张三const person {name,age:30}function goWork(){consle.log(工作)}return {name,person,goWork}} } 注意&#xff1a;直接定义的变量修改不会…

SI24R03国产自主可控RISC-V架构MCU低功耗2.4GHz收发芯片SoC

目录 RISC-V架构的优势SI24R03/04特性射频收发器模块特征MCU 模块特征 其他特征 RISC-V架构的优势 相对于目前主流的英特尔X86架构及ARM等架构来说&#xff0c;RISC-V架构具有指令精简、模块化、可扩展、开源、免费等优点。RISC-V的基础指令集只有40多条&#xff0c;加上其他基…

Kafka--从Zookeeper数据理解Kafka集群工作机制

从Zookeeper数据理解Kafka集群工作机制 这一部分主要是理解Kafka的服务端重要原理。但是Kafka为了保证高吞吐&#xff0c;高性能&#xff0c;高可扩展的三高架构&#xff0c;很多具体设计都是相当复杂的。如果直接跳进去学习研究&#xff0c;很快就会晕头转向。所以&#xff0c…