Redis的HyperLogLog原理介绍

Redis 的 HyperLogLog 数据结构实现了一种基于概率的基数估算算法,用于在占用极小内存的情况下估算一个集合中不重复元素(唯一值)的数量。以下是 HyperLogLog 算法的基本原理:

  1. 哈希函数

    • HyperLogLog 使用一个强散列函数将输入的元素映射为固定长度的二进制串。
  2. 位前导零统计

    • 对每个元素经过哈希后的二进制串,统计从最高位开始连续零的个数(即前导零个数)。这个值反映了元素哈希值的稀有程度,间接表示了元素的独特性。
  3. 存储与计数

    • Redis 中的 HyperLogLog 结构内部维护了一个大小固定的桶数组,默认大小为 2^14 = 16384 个桶。
    • 每个桶用于存储对应的元素哈希值所观察到的最大前导零个数。
    • 当添加新的元素时,它会被哈希并找到对应的桶来更新该桶中的最大前导零计数值。
  4. 基数估算

    • 利用统计的所有桶中最长的前导零序列,通过预定义的公式计算出一个近似的基数(唯一元素数量),这个估算值通常会非常接近实际基数,但不是精确值。
    • 标准误差大约是 0.81%,这意味着对于大量数据,HyperLogLog 能够以相对较小的误差估计基数。
  5. 空间效率

    • 即使可以处理多达 2^64 个不同的元素,Redis 中单个 HyperLogLog 键只需要大约 12KB 的固定内存空间。
    • 在初始阶段或基数较小的时候,HyperLogLog 使用稀疏存储模式,随着基数增加,当满足一定条件后会转换为稠密存储模式,即上述的固定大小的桶数组。
  6. 合并操作

    • HyperLogLog 还支持多个集合的合并操作(pfmerge 命令),允许将多个 HyperLogLog 键合并成一个新的键,同时正确估算所有源键包含的唯一元素总数,这对于分布式环境下的基数统计尤为有用。

总之,HyperLogLog 是一种高效的空间优化型算法,适合于在有限资源下进行大规模数据集的去重计数任务。

Redis 的 HyperLogLog 原理可以用一个简单的比喻来通俗易懂地解释:

想象一下你在一个巨大的、无限大的公园里随机扔硬币。每次扔出的硬币落地时,我们只关心它正面朝上还是反面朝上,并且记录下第一次出现正面朝上的次数(比如,扔了5次才见到第一个正面,就记为5)。由于硬币是随机的,这个“第一次正面”的次数与公园中人的数量有一定的关系:人越多,每个区域平均需要扔更多次才能看到正面的概率越大。

HyperLogLog 就像是这样一种神奇的计数器,不过它不是真的扔硬币,而是对输入元素(如用户ID、网页访问等)进行哈希处理,将这些元素映射到一个很大的虚拟空间内,就好比在不同的区域内扔硬币。每个哈希值对应的就是一次“扔硬币”,而观察到的最长连续零位(前导零个数)就代表了需要多少次“扔”才能见到“正面”。

在 Redis 中,HyperLogLog 用一个固定大小的桶数组(默认大小为2^14个桶)来存储各个桶对应的最长前导零个数。通过统计所有桶中的最大前导零计数值,并结合一个数学公式,就可以估算出不重复元素的大致数量,尽管实际上并没有存储每个具体的唯一元素。

所以,虽然 HyperLogLog 不会记住每一个独特的元素,但它能用极小的空间开销(仅需约12KB),相对准确地估计高达2^64个不同元素的数量。当然,这是一种概率算法,因此结果存在一定的误差,但其标准误差率相当低,在0.81%左右。

HyperLogLog 在实际开发中主要用于需要统计大量唯一值数量但又对内存占用敏感的场景,它可以提供一个非常接近真实基数的估算值,同时占用极小的存储空间。以下是一些具体的应用场景:

  1. 网站独立访客(UV)统计

    • 通过记录用户访问时的标识符(如 IP 地址、Cookie 或用户ID),使用 HyperLogLog 进行去重计数,可以快速估算一天内或一段时间内的独立访客数量。
  2. 广告点击独立用户统计

    • 在在线广告系统中,为了评估广告效果,需要统计每个广告被多少不同的用户点击过。HyperLogLog 可以用来估算每条广告的独立点击用户数。
  3. 社交网络分析

    • 社交网络中的粉丝数、关注数等指标可以通过 HyperLogLog 来进行估算,尤其是在大数据量下不需要知道具体的粉丝列表,只需估计大致的数量。
  4. 实时事件流处理

    • 对于日志收集和分析平台,HyperLogLog 可用于实时统计每天或每小时发生的不同类型的事件数量,例如异常请求次数、不同设备型号的活跃用户数等。
  5. 数据库索引优化

    • 在数据导入预处理阶段,可利用 HyperLogLog 预估某个字段的唯一值数量,以便更准确地选择合适的索引策略。
  6. 分布式环境下的去重计算

    • 在分布式系统中,数据可能分布在多个节点上。每个节点本地维护一个 HyperLogLog 结构,然后通过 pfmerge 命令将各个节点的 HyperLogLog 合并,最终得到全系统的唯一值数量。

总之,只要涉及到在海量数据下高效估算唯一元素数量的需求,都可能是 HyperLogLog 大显身手的地方。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/734279.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小程序网页view多行文本超出隐藏或显示省略号

实现效果: 限制两行,超出即显示省略号 实现:话不多说,展示代码 关键代码 .box{ width:100rpx; overflow:hidden; text-overflow: ellipsis;//超出省略号 display:-webkit-box; -webkit-line-clamp: 2;//显…

RabbitMQ - 03 - Work消息模型

目录 部署demo项目 什么是Work消息模型 实现Work消息模型 1.创建队列 2.生产者代码 3.消费者代码 4.配置yml 部署demo项目 通过消息队列demo项目进行练习 相关配置看此贴 http://t.csdnimg.cn/hPk2T 注意 生产者消费者的yml文件也要配置好 什么是Work消息模型 工作…

Arcgis小技巧【20】——属性表有东西,缩放至图层却看不到?

一、问题分析 这是一个看似正常的要素类数据,打开它的属性表,里面有一行要素: 说明这不是空数据。 回到地图界面,在图层列表中,右键单击,点击【缩放至图层】。 使用过这个功能的应该知道,点击…

快速上手:使用Hexo搭建并自定义个人博客

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

Linux常用操作命令-防火墙常用操作

一、防火墙常用操作 1、查看防火墙的状态; systemctl status firewalld 2、启动防火墙 systemctl start firewalld.service 3、开启某个端口,如8081端口,输入命令 firewall-cmd --zonepublic --add-port8088/tcp --permanent 4、删除某个…

Linux第74步_“设备树”下的LED驱动

使用新字符设备驱动的一般模板,以及设备树,驱动LED。 1、添加“stm32mp1_led”节点 打开虚拟机上“VSCode”,点击“文件”,点击“打开文件夹”,点击“zgq”,点击“linux”,点击“atk-mp1”&am…

AHU 数据库 实验四

【实验名称】 实验4 数据库的嵌套查询和集合查询 【实验目的】 1. 理解并掌握子查询的概念和作用; 2. 掌握DBMS 实现嵌套查询的基本方法和应用; 3. 掌握DBMS 实现集合查询的基本方法和应用; 4. 学习、掌握并熟练…

selenium-java 通过配置xml文件并发运行类或者方法

1、打开idea允许某个class类,可以在控制台看到运行路径的下的配置文件如下图: 2、将路径复制到本地路径中找到temp-testng-customsuite.xml文件 3、复制该文件到项目的根目录下,可以修改文件名称,如下图 4、如图所示,通…

Unity UGUI之InputField(TMP)基本了解

Unity的InputField组件是用于在Unity中创建可供用户输入文本的输入框的UI组件。通过InputField组件,可以让用户在运行时输入文本,比如用户名、密码、搜索关键字等。其中TMP版本的InputField是基于TextMeshPro的InputField组件,提供了更多的文…

C++字符串操作【超详细】

零.前言 本文将重点围绕C的字符串来展开描述。 其中,对于C/C中字符串的一些区别也做出了回答,并对于C的(string库)进行了讲解,最后我们给出字符串的不同表达形式。 开发环境: VS2022 一.字符串常量跟字…

运维随录实战(12)之node版本管理工具nvm

1,下载安装nvm 可以去其 github 主页下在,地址为 github.com/coreybutler…会看到有很多个文件可供选择: 这里稍做下解释: nvm-noinstall.zip: 这个是绿色版本,不需要安装,但是使用之前需要配置环境变量;nvm-setup.zip:推荐下载这个包,无需配置就可以使用;Source …

Rust 的 std::error::Error

std::error::Error 是 Rust 标准库中的一个 trait,它定义了一个通用的错误处理接口。在 Rust 中,错误处理是一个重要的部分,而 Error trait 使得不同类型的错误可以以一种统一的方式被处理。 Error trait 的定义 Error trait 定义非常简单&…

Git版本工具学习

目录 版本控制git配置工作区域文件状态git对象模型基础命令.gitignore忽略文件IDEA集成Git 版本控制 本地版本控制:在本地记录每一次版本更新。 集中版本控制:版本数据都保存在单一服务器,不联网就看不到版本信息。SVN 分布式版本控制&…

虚函数与纯虚函数有什么区别?

总的来说有两点区别: 1.虚函数的作用主要是矫正指针(口语化的说法) 2.虚函数不一定要重新定义,纯虚函数一定要定义(口语化的说法) 1). 虚函数的作用主要是矫正指针,使得基类的指针…

w7安装高版本nodejs

Win7系统可直接安装的最高nodejs版本为13.14,以为要换系统了,不过,网上找到了方法可以安装高版本 我是配置好环境变量后开始操作的(因为之前试了其他方法,没成功,环境变量就留下了) 新建变量NO…

Java中常用的集合及方法(3)

1、List(接上级--常用方法示例补充) 1.4 常用的方法 1.4.2 LinkedList(JDK8) LinkedList是Java中一个实现了List接口和Deque接口的类,它采用链表结构存储数据,支持高效的插入和删除操作。 LinkedList中…

3647. 惠民工程,并查集

市政府“惠民工程”的目标是在全市 n 个居民点间之架设煤气管道(但不一定有直接的管道相连,只要能间接通过管道可达即可)。很显然最多可架设 n(n−1)/2 条管道,然而实际上要连通 n 个居民点只需架设 n−1 条管道就可以了。现请你编…

win10阿里云实现内网穿透#frp

win10&阿里云实现内网穿透#frp 文章目录 win10&阿里云实现内网穿透#frp一、什么是内网穿透?下载frp 二、云服务端部署frps三、本地部署frpc 一、什么是内网穿透? 内网穿透是一种网络技术,它允许外部网络用户通过互联网访问局域网&am…

【Java核心能力】RateLimiter 限流底层原理解析

欢迎关注公众号(通过文章导读关注:【11来了】),及时收到 AI 前沿项目工具及新技术的推送! 在我后台回复 「资料」 可领取编程高频电子书! 在我后台回复「面试」可领取硬核面试笔记! 文章导读地址…

第89篇:方程式工具包远程溢出漏洞图形界面版V0.3(内置永恒之蓝、永恒冠军、永恒浪漫等)...

Part1 前言 大家好,我是ABC_123。我从年前到现在,一直在整理曾经写过的红队工具,逐步把自己认为比较好用的原创工具发出来给大家用一用,方便大家在日常的攻防比赛、红队评估项目中解放双手,节省时间精力和体力。本期给…