Redis:19---常用功能之(HyperLogLog)

一、HyperLogLog概述

  • HyperLogLog并不是一种新的数据结构(实际类型为字符串类型),而是一种基数算法,通过HyperLogLog可以利用极小的内存空间完成独立总数的统计,数据集可以是IP、Email、ID等

  • HyperLogLog提供了3个命令:pfadd、pfcount、pfmerge

  •  

二、添加(pfadd)

pfadd key element [element …]
  • pfadd用于向HyperLogLog添加元素,如果添加成功返回1

  • 例如:下面向一个名为2016_06_06:unique:ids的hyperloglog中添加4个元素

 

三、计算独立用户数(pfcount)

pfcount key [key …]
  • pfcount用于计算一个或多个HyperLogLog的独立总数

  • 例如:接着上面的演示案例,2016_03_06:unique:ids的独立总数为4:

 

内存节省效果演示案例

  • ①插入前使用info memory查看一下内存占用率

 

  • ②下面建立一个名为test.sh的脚本,执行该脚本,向key为2016_05_01:unique:ids的HyperLogLog中插入100万个元素(循环每次插入1000条)

elements=""
key="2016_05_01:unique:ids"
for i in `seq 1 1000000`
do
elements="${elements} uuid-"${i}
if [[ $((i%1000)) == 0 ]];
then
redis-cli pfadd ${key} ${elements}
elements=""
fi
done

 

  • ③执行完脚本之后,再次查看内存,发现内存只增加了14K左右

  • ④但是,使用pfcount查看结果,发现执行的结果并不止100万个

  • ⑤现在改为使用集合类型进行测试,那么可以看到内存使用率在脚本执行完之后涨到了几十MB,但是独立用户数为100万

elements=""
key="2016_05_01:unique:ids:set"
for i in `seq 1 1000000`
do
elements="${elements} "${i}
if [[ $((i%1000)) == 0 ]];
then
redis-cli sadd ${key} ${elements}
elements=""
fi
done

  • 下图列出了使用集合类型和HperLogLog统计百万级用户的占用空间对比:

数据类型

1天

1月

1年

集合类型

80M

2.4G

28G

HperLogLog

15K

450K

5M

  • 可以看到,HyperLogLog内存占用量小得惊人,但是用如此小空间来估算如此巨大的数据,必然不是100%的正确,其中一定存在误差率。Redis官方给出的数字是0.81%的失误率

四、合并(pfmerge)

pfmerge destkey sourcekey [sourcekey ...]
  • pfmerge可以求出多个HyperLogLog的并集并赋值给destkey

  • 例如:要计算 2016年3月5日和3月6日的访问独立用户数,可以按照如下方式来执行,可以看到最终独立用户数是7:

五、HyperLogLog优缺点与使用建议

  • HyperLogLog内存占用量非常小,但是存在错误率

  • 开发者在进行数据结构选型时只需要确认如下两条即可:

    • 只为了计算独立总数,不需要获取单条数据

    • 可以容忍一定误差率,毕竟HyperLogLog在内存的占用量上有很大的优势

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/444300.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算时间差的Oracle函数

Oracle函数可以实现诸多的功能,下面就介绍使用Oracle函数计算时间差的实现方法,如果您对Oracle函数方面感兴趣的话,不妨一看。 两个Date类型字段:START_DATE,END_DATE,计算这两个日期的时间差(分…

leetcode181. 超过经理收入的员工(SQL)

Employee 表包含所有员工,他们的经理也属于员工。每个员工都有一个 Id,此外还有一列对应员工的经理的 Id。 ------------------------------ | Id | Name | Salary | ManagerId | ------------------------------ | 1 | Joe | 70000 | 3 |…

UNIX(多线程):01---线程简介及线程限制

一、线程的概念 典型的UNIX进程可以看成只有一个控制线程:一个进程在同一时刻只做一件事。有了多个控制线程后,在程序设计时可以把进程设计成在同一时刻能够做不止一件事,每个线程处理各自独立的任务二、线程的优点 通过为每种事件类型分配单独的处理线程,可以简化处理异步…

UNIX(多线程):13---condition_variable、wait、notify_one、notify_all

条件变量std::condition_variable、wait()、notify_one() 线程A: 等待一个条件满足线程B: 专门往消息队列中放入消息(数据),达到一定条件,通知处于等待中的线程A。std::condition_variable实际上是一个类,是一个和条件相关的一个类,说白了就是等待一个条件达成。这个类是…

leetcode176. 第二高的薪水(SQL)

编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。 ------------ | Id | Salary | ------------ | 1 | 100 | | 2 | 200 | | 3 | 300 | ------------ 例如上述 Employee 表,SQL查询应该返回 200 作为第二…

UNIX(多线程):17---异步任务提供者(Provider) 介绍

std::promise 类概述 Promise 对象可以保存某一类型 T 的值,该值可被 future 对象读取(可能在另外一个线程中),因此 promise 也提供了一种线程同步的手段。在 promise 对象构造时可以和一个共享状态(通常是std::future)相关联,并可以在相关联的共享状态(std::future)上保…

leetcode180. 连续出现的数字(SQL)

编写一个 SQL 查询,查找所有至少连续出现三次的数字。 --------- | Id | Num | --------- | 1 | 1 | | 2 | 1 | | 3 | 1 | | 4 | 2 | | 5 | 1 | | 6 | 2 | | 7 | 2 | --------- 例如,给定上面的 Logs 表, 1 是唯一连续…

UNIX(多线程):18---异步任务提供者(Provider) 介绍(续)

本文主要介绍 std::packaged_task。 std::packaged_task 包装一个可调用的对象,并且允许异步获取该可调用对象产生的结果,从包装可调用对象意义上来讲,std::packaged_task 与 std::function 类似,只不过 std::packaged_task 将其包装的可调用对象的执行结果传递给一个 std:…

leetcode182. 查找重复的电子邮箱(SQL)

编写一个 SQL 查询,查找 Person 表中所有重复的电子邮箱。 示例: ------------- | Id | Email | ------------- | 1 | ab.com | | 2 | cd.com | | 3 | ab.com | ------------- 根据以上输入,你的查询应返回以下结果: ----…

UNIX(多线程):19---Future 类型详解

Future 类型详解 本文主要介绍 std::future,std::shared_future 以及 std::future_error,另外还会介绍 <future> 头文件中的 std::async,std::future_category 函数以及相关枚举类型。 std::future 详解 std::future 概述 前面已经多次提到过 std::future,那么 std::…

UNIX(多线程):20---生产者消费者实例

本文将综合运用 C++11 中的新的基础设施(主要是多线程、锁、条件变量)来阐述一个经典问题——生产者消费者模型,并给出完整的解决方案。 生产者消费者问题是多线程并发中一个非常经典的问题,相信学过操作系统课程的同学都清楚这个问题的根源。本文将就四种情况分析并介绍生产…

leetcode183. 从不订购的客户(SQL)

某网站包含两个表&#xff0c;Customers 表和 Orders 表。编写一个 SQL 查询&#xff0c;找出所有从不订购任何东西的客户。 Customers 表&#xff1a; ----------- | Id | Name | ----------- | 1 | Joe | | 2 | Henry | | 3 | Sam | | 4 | Max | ----------- Or…

UNIX(多线程):21---线程池实现原理

线程池简介: 线程过多会带来调度开销,进而影响缓存局部性和整体性能。 而线程池维护着多个线程,等待着监督管理者分配可并发执行的任务。这避免了在处理短时间任务时创建与销毁线程的代价。线程池不仅能够保证内核的充分利用,还能防止过分调度。可用线程数量应该取决于可用…

leetcode197. 上升的温度(SQL)

给定一个 Weather 表&#xff0c;编写一个 SQL 查询&#xff0c;来查找与之前&#xff08;昨天的&#xff09;日期相比温度更高的所有日期的 Id。 --------------------------------------------- | Id(INT) | RecordDate(DATE) | Temperature(INT) | -----------------------…

UNIX(多线程):22---几种常见的线程池

常见线程池 1、newSingleThreadExecutor 创建一个单线程化的线程池,它只会用唯一的工作线程来执行任务,保证所有任务按照指定顺序(FIFO, LIFO, 优先级)执行。 从构造方法来看,它可以单独执行,也可以与周期线程池结合用。其任务队列是LinkedBlockingQueue,这是个无界的阻塞…

js正则表达式限制文本框只能输入数字,小数点,英文字母

1.文本框只能输入数字代码(小数点也不能输入)<input οnkeyup"this.valuethis.value.replace(/\D/g,)" onafterpaste"this.valuethis.value.replace(/\D/g,)"> 2.只能输入数字,能输小数点. <input οnkeyup"if(isNaN(value))execCommand(und…

UNIX(多线程):23---线程池注意事项和常见问题

使用线程池的注意事项 死锁任何多线程程序都有死锁的风险,最简单的情形是两个线程AB,A持有锁1,请求锁2,B持有锁2,请求锁1。(这种情况在mysql的排他锁也会出现,不会数据库会直接报错提示)。线程池中还有另一种死锁:假设线程池中的所有工作线程都在执行各自任务时被阻塞…

leetcode 178. 分数排名(SQL)

编写一个 SQL 查询来实现分数排名。如果两个分数相同&#xff0c;则两个分数排名&#xff08;Rank&#xff09;相同。请注意&#xff0c;平分后的下一个名次应该是下一个连续的整数值。换句话说&#xff0c;名次之间不应该有“间隔”。 ----------- | Id | Score | ----------…

UNIX(多线程):24---哪些STL容器是线程安全的

在日常C++开发,少不了和STL,多线程打交道,那么在多线程下,哪些容器时线程安全的,那些不是? 好,这里就举一个简单的例子,我们先看看vector容器,相信你能看出一些问题: #include <iostream> #include <string> #include <algorithm> #inclu…

leetcode184. 部门工资最高的员工(SQL) 连接+嵌套查询

Employee 表包含所有员工信息&#xff0c;每个员工有其对应的 Id, salary 和 department Id。 --------------------------------- | Id | Name | Salary | DepartmentId | --------------------------------- | 1 | Joe | 70000 | 1 | | 2 | Henry | 80000 …