Redis:19---常用功能之(HyperLogLog)

一、HyperLogLog概述

  • HyperLogLog并不是一种新的数据结构(实际类型为字符串类型),而是一种基数算法,通过HyperLogLog可以利用极小的内存空间完成独立总数的统计,数据集可以是IP、Email、ID等

  • HyperLogLog提供了3个命令:pfadd、pfcount、pfmerge

  •  

二、添加(pfadd)

pfadd key element [element …]
  • pfadd用于向HyperLogLog添加元素,如果添加成功返回1

  • 例如:下面向一个名为2016_06_06:unique:ids的hyperloglog中添加4个元素

 

三、计算独立用户数(pfcount)

pfcount key [key …]
  • pfcount用于计算一个或多个HyperLogLog的独立总数

  • 例如:接着上面的演示案例,2016_03_06:unique:ids的独立总数为4:

 

内存节省效果演示案例

  • ①插入前使用info memory查看一下内存占用率

 

  • ②下面建立一个名为test.sh的脚本,执行该脚本,向key为2016_05_01:unique:ids的HyperLogLog中插入100万个元素(循环每次插入1000条)

elements=""
key="2016_05_01:unique:ids"
for i in `seq 1 1000000`
do
elements="${elements} uuid-"${i}
if [[ $((i%1000)) == 0 ]];
then
redis-cli pfadd ${key} ${elements}
elements=""
fi
done

 

  • ③执行完脚本之后,再次查看内存,发现内存只增加了14K左右

  • ④但是,使用pfcount查看结果,发现执行的结果并不止100万个

  • ⑤现在改为使用集合类型进行测试,那么可以看到内存使用率在脚本执行完之后涨到了几十MB,但是独立用户数为100万

elements=""
key="2016_05_01:unique:ids:set"
for i in `seq 1 1000000`
do
elements="${elements} "${i}
if [[ $((i%1000)) == 0 ]];
then
redis-cli sadd ${key} ${elements}
elements=""
fi
done

  • 下图列出了使用集合类型和HperLogLog统计百万级用户的占用空间对比:

数据类型

1天

1月

1年

集合类型

80M

2.4G

28G

HperLogLog

15K

450K

5M

  • 可以看到,HyperLogLog内存占用量小得惊人,但是用如此小空间来估算如此巨大的数据,必然不是100%的正确,其中一定存在误差率。Redis官方给出的数字是0.81%的失误率

四、合并(pfmerge)

pfmerge destkey sourcekey [sourcekey ...]
  • pfmerge可以求出多个HyperLogLog的并集并赋值给destkey

  • 例如:要计算 2016年3月5日和3月6日的访问独立用户数,可以按照如下方式来执行,可以看到最终独立用户数是7:

五、HyperLogLog优缺点与使用建议

  • HyperLogLog内存占用量非常小,但是存在错误率

  • 开发者在进行数据结构选型时只需要确认如下两条即可:

    • 只为了计算独立总数,不需要获取单条数据

    • 可以容忍一定误差率,毕竟HyperLogLog在内存的占用量上有很大的优势

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/444300.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UNIX(多线程):13---condition_variable、wait、notify_one、notify_all

条件变量std::condition_variable、wait()、notify_one() 线程A: 等待一个条件满足线程B: 专门往消息队列中放入消息(数据),达到一定条件,通知处于等待中的线程A。std::condition_variable实际上是一个类,是一个和条件相关的一个类,说白了就是等待一个条件达成。这个类是…

UNIX(多线程):27---多线程并发之原子操作与无锁编程

原子操作:顾名思义就是不可分割的操作,该操作只存在未开始和已完成两种状态,不存在中间状态; 原子类型:原子库中定义的数据类型,对这些类型的所有操作都是原子的,包括通过原子类模板std::atomic< T >实例化的数据类型,也都是支持原子操作的。 二、如何使用原子类…

UNIX(进程间通信):01---Linux进程通信方式

Linux下的进程通信手段基本上是从Unix平台上的进程通信手段继承而来的。而对Unix发展做出重大贡献的两大主力AT&T的贝尔实验室及BSD(加州大学伯克利分校的伯克利软件发布中心)在进程间通信方面的侧重点有所不同。前者对Unix早期的进程间通信手段进行了系统的改进和扩充,…

UNIX(进程间通信):02---父子进程之间的数据共享分析

之前我们通过fork()函数,得知了父子进程之间的存在着代码的拷贝,且父子进程都相互独立执行,那么父子进程是否共享同一段数据,即是否存在着数据共享。接下来我们就来分析分析父子进程是否存在着数据共享。 我们都知道,在linux下,内存存储的位置是全局变量,栈区,堆区,以…

UNIX(进程间通信):04---孤儿进程

上一篇文章讲过僵尸进程,这里再分享给大家另外一种状态。 孤儿进程 什么是孤儿进程?当一个子进程还在执行时,它的父进程已经退出了,那么这个子进程的退出信息也没有被父进程接收到,如果子进程的退出信息没有被别的进程接收到,那么这个子进程就会变成一个僵尸进程,所…

UNIX(进程间通信):16深入理解Socket

socket又叫套接字或者插口,它也是进程间通信的一种方式,实际上就是网络上的通信节点,应用程序只需要链接到socket就可以和网络上任何一个通信端点连接、传送数据。socket封装了通信的细节,我们可以不必关心通信协议内容而专注于应用程序开发。根据数据传送方式,socket分为…

苹果支付:如何解决沙盒环境下获取可恢复购买项为空

在传统手游开发中免不了和苹果支付打交道,而且苹果也会有各种奇奇怪怪的问题和BUG 。 曾经有一次某一个游戏出现了调单问题,现象如下(我有点懒,不想画泳道图或者时序图): 客户端拉起支付付款成功,OC底层收到支付成功回调->发送支付成功的收据到服务器验…

游戏服务器架构:如何设计开发战斗系统的技能和buff系统

战斗系统中buff和skill如何配合 在网络游戏中的战斗形式多种多样,不同游戏的战斗逻辑也有很大的差异。但是一般都会涉及技能系统和buff系统,两种之间相互关联,技能可以产生buff作用在目标上,影响目标。同时buff也会影响技能的释放效果,两者都可以算得上游戏战斗系统最重要…

一文彻底搞懂静态库和动态库,显示链接和隐式链接

定义&#xff1a;运行时库 静态库 动态库运行时库&#xff1a;Unix中一个典型的运行时库例子就是libc&#xff0c;它包含标准的C函数&#xff0c;如&#xff0c;print()&#xff0c;exit()等等&#xff0c;用户能创建他们自己的运行库&#xff08;在Windows中是DLL&#xff09;…

mysql的cpu高定位

导致数据库CPU很高的原因有很多种,一般和慢SQL也有关(因为每条SQL要么占CPU高,要么占IO高,大体是这样)。 (1)、如果服务器有多个mysql实例,需要通过top命令看看是哪个mysql实例导致的cpu高(如果不是mysql导致的cpu高,需要优化其他导致cpu的程序): (2)、定位到占用…

游戏服务器架构-设计模式之发布订阅模式

发布订阅模式场景 熟悉消息中间件的同学应该对发布/订阅模式(Publish Subscribe Pattern)并不陌生。即使你不了解消息中间件,那么在平时生活中发布/订阅模式也是非常常见的场景。 比如你打开你的微信订阅号,你订阅的作者发布的文章,会广播给每个订阅者。在这个场景里,微信公…

聊一下CPU占用高的解决方案

前言: 在软件开发和性能测试中,CPU占用率是服务器开发一个很重要的指标,到底有哪些因素会导致CPU占 用率上升呢?又有哪些手段可以降低CPU的占用率呢? 如果你看了这篇文章后仍然没有解决项目问题的思路,请在下方留言或公众号后台留言。(后续我将更新一到两篇…

闲话目前游戏服务器的开发

我是从12年开始进入页游行业&#xff0c;接触到的第一个游戏项目就是淘米网的《摩尔庄园》&#xff0c;公司那个时候也刚在美纽交所上市&#xff0c;被Benson&#xff0c;魏震和Rock腾讯三巨头的感染下&#xff0c;做着喜欢的游戏... &#xff08;后来在工作中我经常会遇到过不…

危险!!!也许你的web网站或服务正在悄无声息地被SQL注入

2010年秋季,联合国官方网站遭受SQL注入攻击。 2014年一个叫“TeamDigi7al”的黑客组织攻击了美国海军的一个名为“Smart Web Move”的web应用。此次事件直接造成美国海军数据库超过22万服役人员的个人信息被泄露。而事后,美国海军动用了超过50万美元来弥补此次的数据泄密事故…

手把手教你使用sql注入来绕过游戏后台检测

SQL注入毫无疑问是最危险的Web漏洞之一,因为我们将所有信息都存储在数据库中。其解决方案之一,有许多公司实施Web应用程序防火墙和入侵检测/预防系统来试图保护自己。但不幸的是,这些对策往往是不充分的,并且很容易被绕过。 尽管不能依赖防火墙来防止所有SQL注入,但一些防…

设计模式 ---适配器模式

在一些业务场景里,你是否遇到过如下类似的需求: 1、系统需要使用现有的类,而此类的接口不符合系统的需要。 2、想要建立一个可以重复使用的类,用于与一些彼此之间没有太大关联的一些类,包括一些可能在将来引进的类一起工作,这些源类不一定有一致的接口。 3、通过接口转换…

关于游戏排行榜设计开发的一些总结

前言 不管是手游还是端游,貌似都离不开排行榜,没有排行榜的游戏是没有灵魂的游戏,因为排行榜可以让用户分泌多巴胺,这样日活才会上来,有了用户就有钱赚。产品想方设法的让用户留存,设计各种排行榜:个人段位排名、个人积分或金币排名、全球榜单实时排名。如果用户量少的话…

游戏中的常见概率设计分析

前言游戏中的概率真的是让人又爱又恨&#xff0c;很多玩家因为自己的屌丝气质&#xff08;白嫖&#xff09;而弃坑玩不下去的&#xff0c;比如人尽皆知的某阴阳师&#xff0c;除了氪金&#xff0c;还肝&#xff0c;而且如果你的脸真的非常的黑&#xff0c;那也是打不过那些0氪金…

一个通用游戏后台的设计模式实践总结

搞业务开发的时候&#xff0c;发现有一些代码的开发会让人感觉非常简便舒服&#xff0c;有一些代码的开发却有时候会让人感觉心智负担比较大。逐步总结的过程中&#xff0c;发现让开发人员写起来感觉舒服的代码&#xff0c;大概率是因为当前模块与其他模块代码耦合度低&#xf…

使用nginx分片功能提升缓存效率,支持可拖拽式播放视频

Nginx的slice模块可以将一个请求分解成多个子请求,每个子请求返回响应内容的一个片段,让大文件的缓存更有效率。 HTTP Range请求 HTTP客户端下载文件时,如果发生了网络中断,必须重新向服务器发起HTTP请求,这时客户端已经有了文件的一部分,只需要请求剩余的内容,而不需要…