Bitmap实现原理应用场景

Bitmap是什么?

用内存中连续的二进制位(bit),用0或1标识数据是否存在。

长度为10的bitmap,1,2,3,4 在bitmap中存在。

Bitmap实现

1、字符串

    数值对应字符串的下标、二进制位0,1表示是否存在。(01组成的字符串)

    问题:

        非单调递增字符串长度过大。

2、数组

java中 int类型4byte=32 bit,new int[32] 占32*32bit。

用int的每一位标识一个数字,1个int类型可以表示32的数字。

思路:

个int占4字节即4*8=32位,申请一个int数组长度为 int tmp[1+N/32]即可存储数据,

N代表要进行查找的总数,

tmp中的每个元素在内存在占32位可以对应表示十进制数0~31,所以可得到BitMap表:

tmp[0]:可表示0~31

tmp[1]:可表示32~63

tmp[2]可表示64~95

…….

那么接下来就看看十进制数如何转换为对应的bit位:

假设这40亿int数据为:6,3,8,32,36,……,那么具体的BitMap表示为:

如何判断int数字8在tmp数组的哪个下标index?

    通过直接除以32取整数部分-》  8/32=0 -》 tmp[0]

我们如何知道了8在tmp[0]中的32个位中的哪个位?

在tmp[0]中的第 8mod32=8。数字8就在tmp[0]中的第8个bit位(从右边数起)

Bitmap应用场景

1、在3亿个整数中找出不重复的整数,限制内存不足以容纳3亿个整数。

BitMap小小变种:2-BitMap。

为每个整数分配2bit,用不同的0、1组合来标识特殊意思,

00表示此整数没有出现过、01表示出现一次、11表示出现过多次,就可以找出重复的整数了,

需要的内存空间是正常BitMap的2倍,为:3亿*2/8/1024/1024=71.5MB。

具体的过程如下:

扫描着3亿个整数,组BitMap。

查看BitMap中的对应位置,如果00则变成01,是01则变成11,是11则保持不变,

将3亿个整数扫描完之后也就是说整个BitMap已经组装完毕。最后查看BitMap将对应位为11的整数输出即可。

2、已知某个文件内包含一些电话号码,每个号码为8位数字,统计不同号码的个数。

8位最多99 999 999,(可以理解为从0-99 999 999的数字,每个数字对应一个Bit位,所以只需要99M个Bit==1.2MBytes,这样,就用了小小的1.2M左右的内存表示了所有的8位数的电话)

3、用户标签存储

思路:每个标签(eg:程序员) --》bitMap(存的是用户对应的uid)

业务逻辑的处理思路:

and 关系用&运算 、or的关系用 | 运算 、bitMap不支持非运算(如果要求非的情况,通过遍历全量用户然后进行异或操作)

    

4、布隆过滤器 (Bloom Filter) ,它就是专门用来解决这种去重问题的。

描述:Bloom Filter 反馈不存在的值一定不存在、反馈存在值可能不存在。存在一定概率的误判

原理:

(1)通过一系列的hash算法,得到key的hash值。在位数组中标识为1。

(2)判断key是否存在如果所有hash运算反馈的位数组结论都是 1 那么存在。如果有一个反馈是0 说明这个值不存在。

这也说明了为什么布隆过滤器可以精确的知道反馈不存在的值

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/740095.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Centos7安装postgresql14步骤

1、进入网址 https://www.postgresql.org/download/ 2、按步骤执行 # Install the repository RPM: sudo yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm# Install PostgreSQL: sudo yum install -y…

ST MotorControl Workbench 6.2.1 使用总结

目录 前言 软件安装 根据自己硬件配置参数 生成代码 开发板运行 ​ 总结 前言 好久没有玩ST的电机库了,已经更新到了MotorControl Workbench 6.2.1,6以上的版本比5的版本界面操作有很大的不同,核心算法有些增加。最近体验了一把使用自…

linux设置systemctl启动

linux设置nginx systemctl启动 生成nginx.pid文件 #验证nginx的配置,并生成nginx.pid文件 /usr/local/nginx/sbin/nginx -t #pid文件目录在 /usr/local/nginx/run/nginx.pid 设置systemctl启动nginx #添加之前需要先关闭启动状态的nginx,让nginx是未…

一款好用的AI工具——边界AICHAT(三)

目录 3.23、文档生成PPT演示3.24、AI文档翻译3.25、AI翻译3.26、论文模式3.27、文章批改3.28、文章纠正3.29、写作助手3.30、文言文翻译3.31、日报周报月报生成器3.32、OCR-DOC办公文档识别3.33、AI真人语音合成3.34、录音音频总结3.35、域方模型市场3.36、模型创建3.37、社区交…

Python 导入Excel三维坐标数据 生成三维曲面地形图(面) 4-4、线条平滑曲面(修改颜色)去除无效点

环境和包: 环境 python:python-3.12.0-amd64包: matplotlib 3.8.2 pandas 2.1.4 openpyxl 3.1.2 scipy 1.12.0 代码: import pandas as pd import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from scipy.interpolate import griddata fro…

I2C驱动AT24C02

文章目录 一、硬件电路设备地址 二、使用步骤字节写:页写入:任意写:任意读: 一、硬件电路 设备地址 设备需要一个8位的设备地址字,后面跟着一个启动条件,以使芯片能够进行读或写操作 设备地址字由一个强制的1,0序列的前四个最有效的位,如所示…

(二)运行自己的stable-diffusion

前面的步骤如https://datawhaler.feishu.cn/docx/BwjzdQPJRonFh8xeiSOcRUI3n8b所示 拷贝、解压文件后,进入到stable-diffusion-webui的文件夹中,文件如下: 启动: 运行效果: 由于生成了好几个图,所以…

springboot的Converter和HttpMessageConveter

Converter和HttpMessageConveter是springboot和springmvc在处理请求的时候需要用到的。但是这两者的完全是不一样的,作用的地方也不一样。 1,springboot和springmvc处理请求的流程 先来回顾一下处理请求的流程: 用户向服务器发送请求&#…

Webbench,一个简单好用的web压力测试工具

Webbench 是一个简单且轻量级的Web服务器压力测试工具,它通过创建多个子进程来模拟多个客户端同时向服务器发送请求。运行平台是linux 安装Webbench: 1 下载Webbench源代码: wget http://www.ha97.com/code/webbench-1.5.tar.gz 2 解压源代码包&#…

焦点调制网络

摘要 https://arxiv.org/pdf/2203.11926.pdf 我们提出了焦点调制网络(简称FocalNets),其中自注意力(SA)被焦点调制模块完全取代,用于在视觉中建模令牌交互。焦点调制包含三个组件:(…

AIGC——ComfyUI 安装与基础使用

简介 ComfyUI是一个基于节点流程的稳定扩散操作界面,通过流程实现了更加精准的工作流定制和完善的可复现性。每个模块都有特定的功能,我们可以通过调整模块连接来实现不同的出图效果。然而,节点式的工作流也提高了一定的使用门槛。同时&…

一条 sql 语句可能导致的表锁和行锁以及死锁检测

锁 MDL 当对一个表做增删改查操作的时候,加 MDL 读锁;当要对表做结构变更操作的时候,加 MDL 写锁 ALTER TABLE tbl_name NOWAIT add column ... ALTER TABLE tbl_name WAIT N add column ... …

Deep Q-Networks(DQN)

Deep Q-Networks(DQN)是一种将深度学习技术与Q学习算法相结合的强化学习方法。通过使用深度神经网络来近似Q函数,DQN能够有效地处理具有高维状态空间的复杂问题,这在传统的Q学习方法中是难以实现的。DQN的提出标志着强化学习在处理…

jeecg 启动 微服务 更改配置本地host地址

1. windows系统下,在开始—运行里面输入(找不到运行菜单可直接按WinR键): C:\WINDOWS\system32\drivers\etc ,如图所示: 2. 用记事本 打开这个文件 在最下面输入这个即可

根据索引策略对elasticsearch中的索引进行管理(附带图文教程)

前言 这是我在这个网站整理的笔记,有错误的地方请指出,关注我,接下来还会持续更新。 作者:神的孩子都在歌唱 一. 索引生命周期简介 想要了解更多可以看 : 索引生命周期 1.1 索引生命周期五种阶段 (1)Hot…

初学者必会的Python3文件操作

文件操作的步骤: 打开文件 -> 操作文件 -> 关闭文件 切记:最后要关闭文件。 打开文件 文件句柄 open(文件路径, 模式) 指定文件编码 文件句柄 open(文件路径,模式,encodingutf-8) 为了防止忘记关闭文件,可以使用上下文管理器来…

不知道显卡型号 用什么方法可以知道具体型号要下载驱动

环境: Win10 专业版 问题描述: 不知道显卡型号 用什么方法可以知道具体型号要下载驱动 解决方案: 通过以下几种方法来获取: 1.使用操作系统自带的设备管理器:在Windows操作系统中,你可以打开设备管理…

深入解析Java内存模型

一、背景 并发编程本质问题是:CPU、内存以及IO三者之间的速度差异。CPU速度快于内存、内存访问速度又远远快于IO,根据木桶理论,程序性能取决于最慢的操作,即IO操作。这样会出现CPU和内存交互时,CPU性能无法被充分利用…

GIS学习笔记(四):GIS数据可视化综合(矢量数据)

矢量数据 arcgis的主要可视化工具:属性 符号系统 符号系统 按类别 这里不会涉及到数字的大小因素,只是按照字符的分类去做可视化 “唯一值”的含义 “建筑年代”字段共有10个年份,一个年份也许有多个数据( eg.1990年的建筑有20个)&…

DayDreamInGIS 之 ArcGIS Pro二次开发 锐角检查

功能:检查图斑中所有的夹角,如果为锐角,在单独的标记图层中标记。生成的结果放在默认gdb中,以 图层名_锐角检查 的方式命名 大体实现方式:遍历图层中的所有要素(多部件要素分别处理)&#xff0…