Redis HyperLogLog:数据统计的轻量级解决方案

引言

在现代数据驱动的应用中,Redis 以其出色的性能和灵活性成为了不可或缺的工具。

特别是在统计大量数据时,传统的计数方法往往既耗时又占用大量存储空间。

这次,阿七将介绍一种名为 HyperLogLog 的算法,它在 Redis 中的实现让大规模数据统计变得简单且高效。

深入理解 HyperLogLog

1、HyperLogLog 基础

HyperLogLog 是一种用于估计集合中唯一元素数量的算法,它通过概率统计方法,在极小的内存空间内提供近似的计数结果。这种方法特别适用于需要统计巨大数据集中唯一元素数量的场景。

2、HyperLogLog 与传统方法对比

与传统的精确计数方法相比,HyperLogLog 在处理大数据集时占用极少的内存。例如,一个包含数亿唯一元素的数据集可能只需要几百字节的内存来估算其大小。且最大只会使用 12 KB 的内存。

Redis 中的 HyperLogLog

1、Redis 与 HyperLogLog

在 Redis 中,HyperLogLog 提供了一些基本命令来处理这种类型的数据结构。以下是一些基本的 Redis 命令:

  • PFADD key element [element ...]: 向 HyperLogLog 中添加元素。
  • PFCOUNT key [key ...]: 计算 HyperLogLog 中的唯一元素数量。
  • PFMERGE destkey sourcekey [sourcekey ...]: 合并多个 HyperLogLog。

而且,HyperLogLog 提供了惊人的精度与性能平衡。通常,它的标准误差为 0.81%,这对于大多数应用来说已经足够准确。

2、代码示例:

// Redis HyperLogLog 操作示例
Jedis jedis = new Jedis("localhost");
String key = "page_views";// 添加元素
jedis.pfadd(key, "user1");
jedis.pfadd(key, "user2");// 获取估算的唯一元素数量
long count = jedis.pfcount(key);
System.out.println("Estimated unique elements: " + count);// 合并 HyperLogLog
String otherKey = "more_page_views";
jedis.pfadd(otherKey, "user3");
jedis.pfmerge(key, otherKey);// 再次获取估算数量
long mergedCount = jedis.pfcount(key);
System.out.println("Estimated unique elements after merge: " + mergedCount);

3、实际应用场景

1、计算网站某个功能的 UV,比如说某个网站的日访客数据。比如:有多少独立用户播放过这首歌?这一天该页面的独立访问次数有多少?有多少独立用户观看过该视频?

2、社交媒体平台可以用它来估算独特用户的参与度。

案例研究

在这部分,我们可以探讨一个基于真实数据的案例,展示如何在一个 ToC 业务中计算某个功能的使用 UV(唯一访问用户数),使用 Redis HyperLogLog 来实现。

要使用 Redis HyperLogLog 来统计每天展示的 UV,并根据用户手机的设备 UID 进行跟踪,你可以按照以下步骤实现:

设置 Redis HyperLogLog: 对于每个用户访问,你可以使用 HyperLogLog 数据结构来跟踪 UID。

业务ID + 日期为键: 使用日期作为键的一部分,这样你可以对每天的访问进行独立计数。

Java 代码实现: 使用 Jedis,这是一个流行的 Java Redis 客户端,来与 Redis 进行通信。

import redis.clients.jedis.Jedis;public class UVCounter {private Jedis jedis;private String static final String BUSINESS_ID = "business_id";public UVCounter(String host, int port) {this.jedis = new Jedis(host, port);}public void addVisit(String date, String deviceUID) {String key = "uv:" + date;jedis.pfadd(key, deviceUID);}public long getUVCount(String date) {String key = BUSINESS_ID + ":" + "uv:" + date;return jedis.pfcount(key);}public static void main(String[] args) {UVCounter uvCounter = new UVCounter("localhost", 6379);// 假设这是今天的日期String today = "2023-12-16";// 模拟一些用户访问uvCounter.addVisit(today, "device1");uvCounter.addVisit(today, "device2");uvCounter.addVisit(today, "device3");uvCounter.addVisit(today, "device1"); // 重复的设备 UID// 获取今天的 UV 数long uvCount = uvCounter.getUVCount(today);System.out.println("Unique Visitors Today: " + uvCount);}
}

总结

Redis Bloom filter 大部分都知道,毕竟属于面试八股文中很重要的一个知识点。它可以用来解决缓存穿透的问题,可以判断 Redis key 是否在 DB 中,从而避免请求 DB 中不存在的数据,造成 DB 压力。

它可以使用很小的空间,存储大规模的数据。它的特点是:判断存在不一定存在,但是判断不存在,一定不存在!

但是 Redis HyperLogLog,很多人都不知道,但是在计算大规模数据的唯一数据量级的场景下,这是一个既高效又节省空间的方法。

Redis 还提供了很多好用的工具,阿七后面会为大家继续介绍,大家可以关注我,追更不迷路!

关注同名公众号,回复「面试」两个字,送你全套 Java 面试视频,让你轻松搞定 Java 面试。还可进我免费星球,向我提问

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/232177.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Scala多线程爬虫程序的数据可视化与分析实践

一、Scala简介 Scala是一种多种类型的编程语言,结合了针对对象编程和函数式编程的功能。它运行在Java虚拟机上,具有强大的运算能力和丰富的库支持。Scala常用于大数据处理、并发编程和Web应用程序开发。其灵活性和高效性编程成为编写多线程爬虫程序的理…

Python开发GUI常用库PyQt6和PySide6介绍之一:概述

Python开发GUI常用库PyQt6和PySide6介绍之一:概述 Python开发GUI有许多选择,下面是常见的选择: Tkinter:Tkinter是Python标准库中的一个GUI工具包,易于学习和使用。它提供了丰富的组件和布局选项,适用于简…

企业办公加密系统中——全透明加密和半透明加密的区别

PC端访问地址: www.drhchina.com 天锐绿盾数据防泄密系统中的全透明加密和半透明加密的区别如下: 全透明加密是采用驱动层动态加解密技术,对企业内部所有涉密文档进行强制加密处理,从文件创建开始即可自动加密保护。加密文档在加…

STM32 CAN多节点组网项目实操 挖坑与填坑记录2

系列文章,持续探索CAN多节点通讯, 上一篇文章链接: STM32 CAN多节点组网项目实操 挖坑与填坑记录-CSDN博客文章浏览阅读120次。CAN线性组网项目开发过程中遇到的数据丢包问题,并尝试解决的记录和推测分析。开发了一个多节点线性…

实战 | OpenCV传统方法实现密集圆形分割与计数(详细步骤 + y源码)

导 读 本文主要介绍基于OpenCV传统方法实现密集圆形分割与计数应用,并给详细步骤和代码。 背景介绍 实例图片来源于网络,目标是分割下图中圆形目标并计数。 本文实现效果如下: 实现步骤 【1】灰度转换 + 均值滤波 + 二值化,得到参考背景 img = cv2.imread(src.jpg)c…

基于深度学习的人脸测距&社交距离过近警报系统

1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 研究背景与意义 近年来,随着深度学习技术的快速发展,人脸识别技术在各个领域得到了广泛应用。其中,人脸测距和社交距离过近警报系统成为了人们…

两个月准备信息系统项目管理师来得及吗?

可以尝试加快进度!但是时间稍微有些紧迫。当然备考时间也不宜过长,2-3个月时间完全足够。对于没有项目经验的初学者考生们,建议提前做好准备,特别要注意时间安排~ 在备考期间,不要受到外界负面言论的影响,比…

Mysql数据库的基础知识和yum安装步骤

MySQL数据库介绍 什么是数据库DB? DB的全称是database,即数据库的意思。数据库实际上就是一个文件集合,是一个存储数据的仓库,数据库是按照特定的格式把数据存储起来,用户可以对存储的数据进行增删改查操作&#xff1…

[C++] 多态(下) -- 多态原理 -- 动静态绑定

文章目录 1、多态原理2、动态绑定和静态绑定3、单继承和多继承关系的虚函数表3.1 单继承中的虚函数表5.2 多继承中的虚函数表 上一篇文章我们了解了虚函数表,虚函数表指针,本篇文章我们来了解多态的底层原理,更好的理解多态的机制。 [C] 多态…

解决浏览器自动将http跳转至https导致无法访问的问题

以下只针对Chrome浏览器 方法一: 1.地址栏中输入chrome://net-internals/#hsts。 2.在Delete domain中输入项目的域名,并Delete(删除)。 3.可以在Query domain测试是否删除成功。 HSTS全称:HTTP Strict Transport Se…

数据分析场景下,企业大模型选型的思路与建议

来源/作者:爱分析 随着大模型带来能力突破,让AI与数据分析相互结合,使分析结果更好支撑业务,促进企业内部数据价值释放,成为了当下企业用户尤为关注的话题。本次分享主要围绕数据分析场景下大模型底座的选型思路&#…

opencv 入门一(显示一张图片)

头文件添加如下&#xff1a; 库目录添加如下&#xff1a; 依赖的库如下&#xff1a; #include <iostream> #include "opencv2/opencv.hpp" int main(int argc,char ** argv) { cv::Mat img cv::imread(argv[1], -1); if (img.empty()) return -1; …

sourcetree 无效的源路径 细节提示:系统找不到指定的文件

工具–>选项–>git 直接下拉到底 点击红框&#xff0c;重新下载一个内嵌git就可以了 我感觉是因为改变了原有git安装路径的问题

MFC 窗口创建过程与消息处理

目录 钩子简介 代码编写 窗口创建过程分析 消息处理 钩子简介 介绍几个钩子函数&#xff0c;因为它们与窗口创建工程有关 安装钩子函数 HHOOK SetWindowsHookExA([in] int idHook,[in] HOOKPROC lpfn,[in] HINSTANCE hmod,[in] DWORD dwThreadId ); 参数说明…

深度学习笔记_7经典网络模型LSTM解决FashionMNIST分类问题

1、 调用模型库&#xff0c;定义参数&#xff0c;做数据预处理 import numpy as np import torch from torchvision.datasets import FashionMNIST import torchvision.transforms as transforms from torch.utils.data import DataLoader import torch.nn.functional as F im…

是什么导致了我孩子的听力损失?

是什么导致了我孩子的听力损失&#xff1f; 有些婴儿天生就有听力损失&#xff0c;这被称为先天性听力损失。许多不同的因素都可能导致这种类型的听力损失&#xff0c;但并不总是能够确定确切的原因。在大约一半的病例中&#xff0c;原因是遗传的&#xff0c;也就是说&#xff…

深度学习 tensorflow基础介绍

深度学习是一种基于人工神经网络的机器学习方法&#xff0c;其目标是通过模仿人脑的结构和功能&#xff0c;实现对大量复杂数据的学习和理解。它可以在图像识别、语音识别、自然语言处理等领域取得惊人的成就。 深度学习的引入引出了TensorFlow&#xff0c;它是一个由Google Br…

DBeaver Ultimate for Mac/win:掌握数据库的终极利器,助您高效管理数据!

在当今数字化时代&#xff0c;数据管理变得越来越重要。而作为一款功能强大的数据库管理工具&#xff0c;DBeaver Ultimate&#xff08;简称DBU&#xff09;助您轻松应对各种复杂的数据管理任务。无论您是数据库管理员、开发人员还是数据分析师&#xff0c;DBU都能为您提供全面…

带你学C语言~指针(2)

目录 &#x1f3c9;前言 &#x1f680; 数组名的理解 &#x1f680;使用指针访问数组 ✈一维数组传参的本质 ✈冒泡排序 &#x1f3c6;二级指针 &#x1f3c6;指针数组 &#x1f3c6;指针数组模拟二维数组 &#x1f389;结束语 &#x1f3c9;前言 上一章&#xff0c;小…

关于“Python”的核心知识点整理大全28

目录 11.1.5 添加新测试 11.2 测试类 11.2.1 各种断言方法 unittestModule中的断言方法&#xff1a; ​编辑11.2.2 一个要测试的类 survey.py language_survey.py 11.2.3 测试 AnonymousSurvey 类 test_survey.py 往期快速传送门&#x1f446;&#xff08;在文章最后&…