拼多多面试|如何用 Redis 统计独立用户访问量?

作者 | 沙茶敏碎碎念

来源 | www.cnblogs.com/xiaoMzjm/p/5223799.html

众所周至,拼多多的待遇也是高的可怕,在挖人方面也是不遗余力,对于一些工作3年的开发,稍微优秀一点的,都给到30K的Offer

当然,拼多多加班也是出名的,一周上6天班是常态,每天工作时间基本都是超过12个小时,也是相当辛苦的。

废话不多说,今天我们来聊一聊拼多多的一道后台面试真题,是一道简单的架构类的题目:

拼多多有数亿的用户,那么对于某个网页,怎么使用Redis来统计一个网站的用户访问数呢?

使用Hash

哈希是Redis的一种基础数据结构,Redis底层维护的是一个开散列,会把不同的key映射到哈希表上,如果是遇到关键字冲突,那么就会拉出一个链表出来。

当一个用户访问的时候,如果用户登陆过,那么我们就使用用户的id,如果用户没有登陆过,那么我们也能够前端页面随机生成一个key用来标识用户

当用户访问的时候,我们可以使用HSET命令,key可以选择URI与对应的日期进行拼凑,field可以使用用户的id或者随机标识,value可以简单设置为1。

当我们要统计某一个网站某一天的访问量的时候,就可以直接使用HLEN来得到最终的结果了。

优点:简单,容易实现,查询也是非常方便,数据准确性非常高。

缺点:占用内存过大,。随着key的增多,性能也会下降。小网站还行,拼多多这种数亿PV的网站肯定受不了

使用Bitset

我们知道,对于一个32位的int,如果我们只用来记录id,那么只能够记录一个用户,但如果我们转成2进制,每位用来表示一个用户,那么我们就能够一口气表示32个用户,空间节省了32倍!

对于有大量数据的场景,如果我们使用bitset,那么可以节省非常多的内存。

对于没有登陆的用户,我们也可以使用哈希算法,把对应的用户标识哈希成一个数字id。bitset非常的节省内存,假设有1亿个用户,也只需要100000000/8/1024/1024约等于12兆内存。

Redis已经为我们提供了SETBIT的方法,使用起来非常的方便,我们可以看看下面的例子

我们在item页面可以不停地使用SETBIT命令,设置用户已经访问了该页面,也可以使用GETBIT的方法查询某个用户是否访问。最后我们通过BITCOUNT可以统计该网页每天的访问数量。

优点:占用内存更小,查询方便,可以指定查询某个用户,数据可能略有瑕疵,对于非登陆的用户,可能不同的key映射到同一个id,否则需要维护一个非登陆用户的映射,有额外的开销。

缺点:如果用户非常的稀疏,那么占用的内存可能比方法一更大。

使用概率算法

对于拼多多这种多个页面都可能非常多访问量的网站,如果所需要的数量不用那么准确,可以使用概率算法

事实上,我们对一个网站的UV的统计,1亿跟1亿零30万其实是差不多的。

在Redis中,已经封装了HyperLogLog算法,他是一种基数评估算法。这种算法的特征,一般都是数据不存具体的值,而是存用来计算概率的一些相关数据。

当用户访问网站的时候,我们可以使用PFADD命令,设置对应的命令,最后我们只要通过PFCOUNT就能顺利计算出最终的结果,因为这个只是一个概率算法,所以可能存在0.81%的误差。

优点:占用内存极小,对于一个key,只需要12kb。对于拼多多这种超多用户的特别适用。

缺点:查询指定用户的时候,可能会出错,毕竟存的不是具体的数据。总数也存在一定的误差。

上面就是常见的3种适用Redis统计网站用户访问数的方法了。

推荐阅读:Java面试题汇总(208道)
【END】
关注下方二维码,订阅更多精彩内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/546475.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 指令篇:文档编辑--col

功能说明&#xff1a;过滤控制字符。语  法&#xff1a;col [-bfx][-l<缓冲区列数>]补充说明&#xff1a;在许多UNIX说明文件里&#xff0c;都有RLF控制字符。当我们运用shell特殊字符">"和">>"&#xff0c;把说明文件的内容输出成纯文本…

被一个熟悉的面试题问懵了:StringBuilder 为什么线程不安全?

作者 | 千山qianshan 来源 | juejin.im/post/5d6228046fb9a06add4e37fe前言周五去面试又被面试的一个问题问哑巴了面试官&#xff1a;StringBuilder和StringBuffer的区别在哪&#xff1f; 我&#xff1a;StringBuilder不是线程安全的&#xff0c;StringBuffer是线程安全的 面试…

Python计算校验文件的MD5、SHA1、SHA256和CRC32,获取文件创建日期、修改日期和文件大小

main.py # -*- coding: utf-8 -*- import os from hashlib import md5, sha1, sha256 from zlib import crc32 import time from math import ceilclass Hash:def __init__(self, strFilePath):self

CC++中的qsort库函数

qsort() 参考&#xff1a;http://www.slyar.com/blog/stdlib-qsort.html qsort包含在<stdlib.h>头文件中&#xff0c;此函数根据你给的比较条件进行快速排序&#xff0c;通过指针移动实现排序。排序之后的结果仍然放在原数组中。使用qsort函数必须自己写一个比较函数。 …

面试官:HTTPS 为什么是安全的?说一下他的底层实现原理?

作者 | leapmie来源 | urlify.cn/zQj6f2这篇干货不错&#xff0c;把HTTPS的原理讲清楚了&#xff0c;而且容易懂&#xff0c;建议大家好好读一下。# HTTPS随着 HTTPS 建站的成本下降&#xff0c;现在大部分的网站都已经开始用上 HTTPS 协议。大家都知道 HTTPS 比 HTTP 安全&…

PyQt5在对话框中打开外部链接的方法

利用PyQt5部分控件的Link属性链接 PyQt5有几个控件带有 setOpenExternalLinks &#xff0c; 如 QLabel、QTextLabel 、 QTextBrowser 等 当 setOpenExternalLinks 值为TURE 表示可通过html 添加 A 标签打开外部链接, 如设置&#xff1a; 我测试的是 QLabel 标签控件 self.lab…

第25周二

今天终于弄好集成测试环境&#xff0c;因为几个问题中间走了弯路&#xff0c;找到最后发现远程配置不成功是因为我没有向CMS发心跳&#xff0c;而原因是没有在spring的bean配置文件中加入心跳相关类&#xff0c;另一个问题访问没权限&#xff0c;是因为appCode类型的大小写问题…

面试官:为什么 Spring 中的 bean 默认为单例?

作者 | 小小木来源 | http://1t.click/ksQ熟悉Spring开发的朋友都知道Spring提供了5种scope分别是singleton、prototype、request、session、global session。如下图是官方文档上的截图&#xff0c;感兴趣的朋友可以进去看看这五种分别有什么不同。今天要介绍的是这五种中的前两…

博主推荐【文件Hash校验工具V1.0 -免费版】

文件Hash校验工具有什么用途&#xff1f; ​Hash校验工具可以用来计算文件的MD5、SHA1、SHA256、CRC32值。简单来说&#xff0c;MD5值就是文件的身份ID&#xff0c;并且具有唯一性。通过比对MD5值&#xff0c;用户能够检查文件是否被篡改过&#xff0c;确保安全性。一般来说&a…

spring AOP实现——xml方法

上一文中 讲了Annotation如何配置AOP&#xff0c;地址如下&#xff1a;http://5148737.blog.51cto.com/5138737/1428048使用同样的bean&#xff0c;用xml来实现一下&#xff1a;Hello.java 接口定义了三个方法&#xff1a;package com.xj.bean.aop;public interface Hello {pub…

基于深度学习的瓷砖色差分类方法研究——学习笔记(评价:色差的定义太模糊。。。问题描述不清楚,太水了)

文章目录 摘要0 引言1 瓷砖图像处理1.1 图像采集1.2 图像处理 2 基于深度学习的瓷砖色差分类算法设计2.1 数据预处理2.2 卷积神经网络的设计2.3 实验设计 3 瓷砖色差分类平台的设计与实现 摘要 瓷砖是人类建筑不可或缺的一种材料&#xff0c;而瓷砖品质最重要的指标之一就是色…

面试官 | 讲一下如何给高并发系统做限流?

作者 | nick hao来源 | uee.me/cDuRD在开发高并发系统时有三把利器用来保护系统&#xff1a;缓存、降级和限流。本文结合作者的一些经验介绍限流的相关概念、算法和常规的实现方式。缓存缓存比较好理解&#xff0c;在大型高并发系统中&#xff0c;如果没有缓存数据库将分分钟被…

Python利用multiprocessing实现多进程,Pyinstaller打包python多进程程序出现多个窗口

一、为什么需要采用multiprocessing多线程技术 自己在做文件Hash校验工具V1.0小工具软件时,需要读取文件,计算文件的MD5、SHA1、SHA256和CRC32这些Hash值,对于小文件能够很快计算出hash值,但是对于大文件需要花费一些时间,不知道进度如何?使用进度条指示也无法正确显示进…

二鸟在林不如一鸟在手

看一篇论文&#xff0c;总能引出一大堆相关的书籍 相关的领域&#xff0c;令人目不暇接&#xff0c;尤其是数学是需要证明和计算的&#xff0c;对初进入领域的研究人员是必要的 熟练之后才不必拘泥于细节&#xff0c;看这些文献、书感觉好像总没有尽头&#xff0c;看着看着就沉…

面试官 | 说一下数据库如何分库分表?

作者 | butterfly100来源 | cnblogs.com/butterfly100/p/9034281.html一. 数据切分关系型数据库本身比较容易成为系统瓶颈&#xff0c;单机存储容量、连接数、处理能力都有限。当单表的数据量达到1000W或100G以后&#xff0c;由于查询维度较多&#xff0c;即使添加从库、优化索…

Python对 txt 文件进行读写、清除和删除操作

一、文件读写 1.推荐使用:通过 with open( ) as f: 来打开文件,这种方法会自动关闭文件 文件操作模式表: ‘r’ 读取模式(默认值) ‘w’ 写入模式 ‘x’ 独占写入模式 ‘a’ 附加模式 ‘b’ 二进制模式(与其他模式结合使用) ‘t’ 文本模式(默认值,与其他模式结合使…

面试官 | JVM 为什么使用元空间替换了永久代?

7:40到11:40历时4个小时完成了该文&#xff0c;看到电脑中左边的便签了么&#xff0c;我也是拼了。在Java8和以后版本中JVM的内存结构慢慢发生了变化。作为面试官如果你还不知道&#xff0c;那么面试过程中是不是有些露怯&#xff1f;作为面试者&#xff0c;如果知晓这些变化&a…

jquery将表单序列化json对象

$.fn.serializeObject function () {var obj {};var count 0;$.each(this.serializeArray(), function (i, o) {var n o.name, v o.value;count;obj[n] obj[n] undefined ? v: $.isArray(obj[n]) ? obj[n].concat(v): [obj[n], v];});//obj.nameCounts count "…

Typora颠覆写作体验的极简好用 Markdown 编辑器基本设置教程

Typora是一款Markdown编辑器。 无论你是建网站写博客、每天写日记、自媒体写稿、办公、程序员写代码文档等等&#xff0c;Typora 都能满足你的要求。 Typora基本设置教程 1.“通用”项设置 打开“文件”下的“偏好设置”选项&#xff0c;在“通用”这项下&#xff0c;设置自…

面试官问:一个Java字符串中到底能有多少个字符?

作者 | 鸟窝来源 | urlify.cn/qYNR3q依照Java的文档&#xff0c; Java中的字符内部是以UTF-16编码方式表示的&#xff0c;最小值是 \u0000 (0),最大值是\uffff(65535)&#xff0c; 也就是一个字符以2个字节来表示&#xff0c;难道Java最多只能表示 65535个字符&#xff1f;char…