Redis 7.x 系列【12】数据类型之基数统计(HyperLogLog)

有道无术,术尚可求,有术无道,止于术。

本系列Redis 版本 7.2.5

源码地址:https://gitee.com/pearl-organization/study-redis-demo

文章目录

    • 1. 概述
    • 2. 常用命令
      • 2.1 PFADD
      • 2.2 PFCOUNT
      • 2.3 PFMERGE
    • 3. 应用场景

1. 概述

基数表示数据集中不重复元素的个数。例如 {1,2,2,3,4,5,5}中,基数集(不重复的元素)为 {1,2,3,4,5},那么该数据集的基数(不重复元素的个数)为5

Redis 2.8.9 版本引入了 HyperLogLog 用于基数统计的算法,用于估算一个集合中不同元素的数量(基数),在处理大量数据时具有显著的空间效率优势。

特点:

  • 空间效率:在输入元素的数量或体积非常大时,计算基数所需的空间总是固定的,并且很小。具体来说,每个 HyperLogLog 键只需要花费约12KB的内存,就可以估算接近2^64个不同元素的基数。
  • 误差:由于是估算算法,存在一定的误差,标准误差大约是 0.81%
  • 不存储元素:只会根据输入元素来计算基数,而不会存储输入元素本身,因此不能像集合那样返回输入的各个元素。

2. 常用命令

所有命令:

命名描述
PFADD添加指定元素到 HyperLogLog
PFCOUNT返回给定 HyperLogLog 的基数估算值
PFDEBUG内部命令,仅用于开发测试
PFMERGE将多个 HyperLogLog 合并为一个
PFSELFTEST内部命令,仅用于开发测试

2.1 PFADD

PFADD 命令将所有元素参数添加到 HyperLogLog 数据结构中。如果内部储存被修改了, 那么返回 1 , 否则返回 0

基本语法:

PFADD key element [element ...]

示例:

redis> PFADD hll a b c d e f g
(integer) 1
redis> PFCOUNT hll
(integer) 7

2.2 PFCOUNT

PFCOUNT 用于计算 HyperLogLog 集合的近似基数。

基本语法:

PFCOUNT key [key ...]

注意事项:

  • 因为 HyperLogLog 是一个近似数据结构,所以 PFCOUNT 返回的结果并不是精确的基数,但它在大多数情况下都足够接近真实值。
  • PFCOUNT 命令的时间复杂度是 O(1),无论 HyperLogLog 集合的大小如何,执行该命令所需的时间都是恒定的。

示例:

redis> PFADD hll foo bar zap
(integer) 1
redis> PFADD hll zap zap zap
(integer) 0
redis> PFADD hll foo bar
(integer) 0
redis> PFCOUNT hll
(integer) 3
redis> PFADD some-other-hll 1 2 3
(integer) 1
redis> PFCOUNT hll some-other-hll
(integer) 6

2.3 PFMERGE

PFMERGE 命令是用于将多个 sourcekey 合并到一个新的 destkey 中,合并后的 destkey 将包含所有源 sourcekey 的并集的近似基数。

命令语法:

PFMERGE destkey sourcekey [sourcekey ...]

使用示例:

# 使用PFADD命令向两个HyperLogLog键(hll1和hll2)中添加元素。
redis> PFADD hll1 foo bar zap a  
(integer) 1  
redis> PFADD hll2 a b c foo  
(integer) 1  
# PFMERGE命令将hll1和hll2合并到新的HyperLogLog键hll3中
redis> PFMERGE hll3 hll1 hll2  
OK  
# 使用PFCOUNT命令来验证hll3的基数是否等于hll1和hll2的并集的基数
redis> PFCOUNT hll3  
(integer) 6

3. 应用场景

常用于需要统计大量数据集合中不同元素数量的场景,如:

  • UV 统计:统计网站的独立访客数量。
  • PV统计:统计页面的浏览量
  • DAU/MAU统计:统计日活跃用户量(DAU)和月活跃用户量(MAU),以评估网站或应用的运营情况。

UV 统计,即独立访客(Unique Visitor)数量的统计,在网站分析和在线业务中是非常重要的指标。需要确保每个访问者的唯一标识是唯一的,以避免重复计数。

示例,添加访问的用户ID

localhost:0>PFADD uv:20240624 1 2 3 
"1"
localhost:0>PFADD uv:20240624 2 3 5 
"1"

统计UV

localhost:0>PFCOUNT uv:20240624
"4"

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/863000.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

static关键字在Java中的作用

static关键字在Java中的作用 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将深入探讨Java中的static关键字及其作用。static是Java中一个非常重要的关…

关于 Qt4Qt5迁移至Qt6出现QDesktopWidget和QApplication::desktop()删除后兼容Qt6 的解决方法

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/140036861 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

【QT】QTableView使用

目录 QTableView是什么QTableView、QStandardItemModel、QStyledItemDelegate区别QTableViewQStandardItemModelQStyledItemDelegate总结 example参考文章 QTableView是什么 QTableView是Qt框架中用于显示和编辑二维表格数据的类。它提供了一个可视化的表格界面,允许…

个人品牌建设:提升职业发展的关键

引言 在当今竞争激烈的职场环境中,拥有强大的个人品牌已经成为职业成功的重要因素。个人品牌不仅可以帮助你在职场中脱颖而出,还能提升你的职业发展机会和个人影响力。本文将详细探讨如何通过系统的方法和策略,构建和提升个人品牌&#xff0…

MySQL存储过程和函数(超详细)

MySQL存储过程和函数 一、什么是存储过程 存储过程就是一些SQL语句的集合,可以简单理解为类似Java中的一个接口函数,函数里面可以使用查询SQL、流程控制语句、定义参数、条件等,用来实现更复杂逻辑的处理。 二、存储过程的作用(…

【期末速成】计算机操作系统 EP04 | 学习笔记

文章目录 一、前言🚀🚀🚀二、正文:☀️☀️☀️2.1 考点七:进程通信2.2 考点八:线程的概念2.3 考点九:处理机调度的概念及原则2.4 考点十:调度方式与调度算法 一、前言🚀…

常见的行为型设计模式

设计模式(三) 常见的行为型模式 1.模板方法模式: 模版模式定义了一个操作的整体流程, 子类可以在不改变算法结构的情况下,重新定义算法中的某些步骤. 假设我们有一个制作饮料的算法框架,这个算法包括以下步骤: 烧水泡制饮料(如…

react+customize-cra使用less+less-loader时,可能遇到的问题及解决办法

目录 1、先附上各依赖版本和config-overrides.js配置代码,按这个版本和配置就没问题 2、问题(注意:问题顺序没有先后之分哦) 2.1、TypeError: Cannot read property tap of undefined 2.2、No module factory available for d…

资金常见业务

资金业务在银行运营中扮演着举足轻重的角色,不仅是重要的资金运用渠道,也是银行资金来源的重要一环。除了通过贷款获取收益外,银行还通过多元化的资金业务实现资金的增值。 资金业务按其性质可以分为多个类别,包括长短期资金业务、…

阐述Python:except的用法和作用?

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

网络配置(IP、NETMASK、GATEWAY、DNS、DHCP) <持续更新中>

参考: 初学Linux之网络配置(IP、NETMASK、GATEWAY、DNS、DHCP)-CSDN博客【学习笔记】网关 & 路由_网关和路由-CSDN博客【学习笔记】计算机网络 IP地址与MAC地址_根据mac分配ip-CSDN博客【学习笔记】TCP 和 UDP 协议_tcp 发送 syn 应答没有syn ack-CSDN博客 一…

一次进程虚拟内存占用超过200G问题分析

在对智驾软件系统资源进行分析时,发现一个进程虚存占用过高,超过200G top查看内存占用 有一个node应用占用了200G的虚拟内存 pmap查看该进程内存情况 pmap -x -p 8496结果显示有两个异常点,刚好和虚存使用总量吻合 一个50G和一个170G的堆…

Linux: network: 丢包分析的另一个途径 tracing

丢包的另一个思路,内核里有些counter的计数,记录的不准确。这个时候怎么办?就需要使用另外一个方式:/sys/kernel/debug/tracing/event/skb/kfree_skb 的跟踪功能。这个算是对counter的一个补充,可以拿来做统计分析使用…

udp Socket组播 服务器

什么是组播 组播也可以称之为多播这也是 UDP 的特性之一。组播是主机间一对多的通讯模式,是一种允许一个或多个组播源发送同一报文到多个接收者的技术。组播源将一份报文发送到特定的组播地址,组播地址不同于单播地址,它并不属于特定某个主机…

【云原生】最新版Kubernetes集群基于Containerd部署

Kubernetes集群基于Containerd部署 文章目录 Kubernetes集群基于Containerd部署资源列表基础环境一、基础环境准备1.1、关闭Swap分区1.2、添加hosts解析1.3、桥接的IPv4流量传递给iptables的链 二、准备Containerd容器运行时2.1、安装Containerd2.2、配置Containerd2.3、启动Co…

智慧校园-医务管理系统总体概述

智慧校园医务管理系统,作为校园健康管理体系的智能化升级,深度融合信息技术与医疗服务,为师生构筑起一道全方位的健康守护网。医务管理系统以提升校园医疗服务水平、优化健康管理流程为核心目标,通过一系列创新功能,确…

MYSQL函数进阶详解:案例解析(第19天)

系列文章目录 一、MySQL的函数(重点) 二、MySQL的窗口函数(重点) 三、MySQL的视图(熟悉) 四、MySQL的事务(熟悉) 文章目录 系列文章目录前言一、MySQL的函数1. 聚合函数2. group_c…

从入口文件搭建php项目

入口文件index.php <?phprequire CallBack.php; // 处理回调请求逻辑 $bot new CallBack();// 请求方式 if (isset($_GET[method])) {$method $_GET[method];if (method_exists($bot, $method)) {return $bot->$method();} else {echo "没有该功能";die();…

Deep Learning复习笔记0

Key Concept: Embedding: learned dense, continuous, low-dimensional representations of object 【将难以表示的对象(如图片&#xff0c;文本等)用连续的低维度的方式表示】 RNN: Recurrent Neural Network -> for processing sequential data (time series data, natur…

【单片机毕业设计选题24035】-基于STM8的便携式智能药盒控制系统

系统功能: 基于STM8的便携式智能药盒控制系统设计的总体方案设计&#xff0c;目前确定的模块主要有&#xff1a; STM8、蓝牙模块、时钟芯片、时钟和复位电路、压力传感器、声光报警电路、按键模块、系统电源模块构成。 STM8&#xff1a;核心控制器&#xff0c;完成各模块的控…