优秀的基数统计算法——HyperLogLog

优秀的基数统计算法——HyperLogLog

news/2025/4/9 7:27:59/文章来源:https://vipstone.blog.csdn.net/article/details/109335541

为什么要使用 HyperLogLog？

在我们实际开发的过程中，可能会遇到这样一个问题，当我们需要统计一个大型网站的独立访问次数时，该用什么的类型来统计？

如果我们使用 Redis 中的集合来统计，当它每天有数千万级别的访问时，将会是一个巨大的问题。因为这些访问量不能被清空，我们运营人员可能会随时查看这些信息，那么随着时间的推移，这些统计数据所占用的空间会越来越大，逐渐超出我们能承载最大空间。

例如，我们用 IP 来作为独立访问的判断依据，那么我们就要把每个独立 IP 进行存储，以 IP4 来计算，IP4 最多需要 15 个字节来存储信息，例如：110.110.110.110。当有一千万个独立 IP 时，所占用的空间就是 15 bit*10000000 约定于 143MB，但这只是一个页面的统计信息，假如我们有 1 万个这样的页面，那我们就需要 1T 以上的空间来存储这些数据，而且随着 IP6 的普及，这个存储数字会越来越大，那我们就不能用集合的方式来存储了，这个时候我们需要开发新的数据类型 HyperLogLog 来做这件事了。

HyperLogLog 介绍

HyperLogLog（下文简称为 HLL）是 Redis 2.8.9 版本添加的数据结构，它用于高性能的基数（去重）统计功能，它的缺点就是存在极低的误差率。

HLL 具有以下几个特点：

能够使用极少的内存来统计巨量的数据，它只需要 12K 空间就能统计 2^64 的数据；
统计存在一定的误差，误差率整体较低，标准误差为 0.81%；

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/545464.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

图论模型Floyd算法

图论模型Floyd算法

图论模型Floyd算法一、简介二、MATLAB执行代码一、简介二、MATLAB执行代码 tulun2.m a [ 0,50,inf,40,25,10;50,0,15,20,inf,25;inf,15,0,10,20,inf;40,20,10,0,10,25;25,inf,20,10,0,55;10,25,inf,25,55,0]; [D, path]floyd(a)floyd.m function [D,path,min1,path1]floyd(a,…

阅读更多...

php变量赋值给js

php变量赋值给js

原文:php变量赋值给js$(document).ready(function(){<?php $f"name"?>var t<?php echo $f?>;alert(t)})或 <script language"javascript" > var t<?php echo "sd"?>; alert(t) </script>关键是sd两旁既要加…

阅读更多...

java 根据类名示例化类_Java LocalDateTime类| AdjustInto（）方法与示例

java 根据类名示例化类_Java LocalDateTime类| AdjustInto（）方法与示例

java 根据类名示例化类LocalDateTime类AdjustInto()方法 (LocalDateTime Class adjustInto() method) adjustInto() method is available in java.time package. AdjustInto()方法在java.time包中可用。 adjustInto() method is used to adjust this LocalDateTime object into…

阅读更多...

2013-11-11 Oracle 课堂测试练习题例：BULK COLLECT及return table

2013-11-11 Oracle 课堂测试练习题例：BULK COLLECT及return table

--1) 查询“计算机”专业学生在“2007-12-15”至“2008-1-8”时间段内借书的 --学生编号、学生名称、图书编号、图书名称、借出日期； select s.stuid, s.stuname, b.bid, b.title, bo.t_timefrom borrow bojoin student s on bo.stuid s.stuidjoin book b on bo.b…

阅读更多...

查询附近的人——GEO

查询附近的人——GEO

受过高等教育的我们都知道，我们所处的任何位置都可以用经度和纬度来标识，经度的范围 -180 到 180，纬度的范围为 -90 到 90。纬度以赤道为界，赤道以南为负数，赤道以北为正数；经度以本初子午线（英国格林尼治天文台）为界，东边为正数，西边为负数。 Redis 在 3.2 版本中增…

阅读更多...

种群竞争模型

种群竞争模型

种群竞争模型一、种群竞争模型二、分析（1）未改变初值（2）改变自然增长率r（3）改变该环境种群最大容量（4）改变两个种群初始数量（5）改变资源竞争力三、MATLAB执行…

阅读更多...

为什么我要选择erlang+go进行server架构(2)

为什么我要选择erlang+go进行server架构(2)

原创文章，转载请注明出处：server非业余研究http://blog.csdn.net/erlib 作者Sunface 为什么我要选择Erlang呢？ 一、erlang特别适合中小团队创业： erlang有异常成熟、经过电信级别大规模验证的OTP应用库，仅仅须要非常ea…

阅读更多...

Python | 计算给定数字的平方（3种不同方式）

Python | 计算给定数字的平方（3种不同方式）

Given a number, and we have to calculate its square in Python. 给定一个数字，我们必须在Python中计算其平方。 Example: 例： Input:Enter an integer numbers: 8Output:Square of 8 is 64Calculating square is a basic operation in mathematics;…

阅读更多...

PFILE和SPFILE

PFILE和SPFILE

PFILE和SPFILE介绍一、PFILEPfile（Parameter File，参数文件）是基于文本格式的参数文件，含有数据库的配置参数。1、PFILE - initSID.ora(默认PFILE名称),位置在$ORACLE_HOME/dbs目录下面。这是一个文本文件，可以用任何…

阅读更多...

内存淘汰机制与算法

内存淘汰机制与算法

在本文开始之前，我们先要明白：在 Redis 中，过期策略和内存淘汰策略两个完全不同的概念，但很多人会把两者搞混。首先，Redis 过期策略指的是 Redis 使用那种策略，来删除已经过期的键值对；而 Redis 内存淘汰机制指的是，当 Redis 运行内存已经超过 Redis 设置的最大内存之…

阅读更多...

Java基础结构语句和IDEA使用和数组

Java基础结构语句和IDEA使用和数组

Java基础结构语句和IDEA和数组基本类型和引用类型static第一章：结构语句1.1.1三元运算符1.1.2switch语句1.1.3do-while循环第二章：IDEA2.1_IDEA的项目结构2.2_IDEA的使用（代码及时自动保存）（1）代码快捷方式…

阅读更多...

java程序员个人能力介绍_Java操作员能力问题

java程序员个人能力介绍_Java操作员能力问题

java程序员个人能力介绍Java Operators Aptitude Questions and Answers: This section provides you Java Operators related Aptitude Questions and Answers with multiple choices. Here, You will get solution and explanation of each question. Java操作员能力倾向问题…

阅读更多...

【新年巨献】计算机类国际英文EI（JA）期刊限量推荐

【新年巨献】计算机类国际英文EI（JA）期刊限量推荐

【2015年新年巨献】计算机、电子类国际英文EI（JA）期刊限量推荐EI源刊（JA） : 计算机、软件、网络、通信工程及电子工程等相关议题征稿与国际学术期刊社合作，特推出EI源刊正刊论文征稿，本次征稿期刊均为最新E…

阅读更多...

拷贝数据库

拷贝数据库

通过IE使用ORACLE数据库：http://localhost:5560/isqlplus通过IE管理ORACLE数据库：http://localhost:1158/em查看oracle数据库的三类文件：数据文件，日志文件，控制文件用SYS登陆，角色给sysdba查看数据文件&am…

阅读更多...

游标迭代器（过滤器）——Scan

游标迭代器（过滤器）——Scan

一个问题引发的「血案」曾经发生过这样一件事，我们的 Redis 服务器存储了海量的数据，其中登录用户信息是以 user_token_id 的形式存储的。运营人员想要当前所有的用户登录信息，然后悲剧就发生了：因为我们的工程师使用了 keys user_token_* 来查询对应的用户，结果导致 Re…

阅读更多...

同时对view延时执行两个动画时候的现象

同时对view延时执行两个动画时候的现象

同时对view延时执行两个动画时候的现象对于view延时执行了两个动画后，会将第一个动画效果终止了，直接在第一个动画的view的最后的状态上接执行后续的动画效果，也就是说，我们可以利用这个特性来写分段动画效果，比如&am…

阅读更多...

子网掩码+ip地址_C ++程序使用位掩码查找唯一编号

子网掩码+ip地址_C ++程序使用位掩码查找唯一编号

子网掩码ip地址Problem statement: C Program to find unique number in an array of n numbers in which except one (unique number) rest all are present thrice. 问题陈述： C 程序在n个数字的数组中查找唯一数字，其中除一个(唯一数字)外其余所有其余…

阅读更多...

消息队列的其他实现方式

消息队列的其他实现方式

在 Redis 5.0 之前消息队列的实现方式有很多种，比较常见的除了我们上文介绍的发布订阅模式，还有两种：List 和 ZSet 的实现方式。 List 和 ZSet 的方式解决了发布订阅模式不能持久化的问题，但这两种方式也有自己的缺点，接下来我们一起来了解一下，先从 List 实现消息队列的…

阅读更多...

怎样使用orapwd新建口令文件

怎样使用orapwd新建口令文件

orapwd是oracle提供的创建口令文件的命令，如果口令文件不见了可以用这个命令重新创建。下面是orapwd命令的一些解释。D:\oracle\ora92\database>orapwdUsage: orapwd file<fname> password<password> entries<users>wherefile - name of passw…

阅读更多...

死锁预防死锁避免死锁_死锁和处理死锁的方法

死锁预防死锁避免死锁_死锁和处理死锁的方法

死锁预防死锁避免死锁僵局 (Deadlock) In the multiprogramming operating system, there are a number of processing which fights for a finite number of resources and sometimes waiting process never gets a chance to change its state because the resources for wh…

阅读更多...

最新文章