【C++】哈希之位图

目录

  • 一、位图概念
  • 二、海量数据面试题

一、位图概念

假如有40亿个无重复且没有排序的无符号整数,给一个无符号整数,如何判断这个整数是否在这40亿个数中?

我们用以前的思路有这些:

  1. 把这40亿个数遍历一遍,直到找到为为止
  2. 排序+二分查找
  3. 位图解决

遍历一遍的时间复杂度为O(N);排序是O(N * logN),二分查找是O(logN),第二种还不如第一种。前面两种方法如果是针对比较小的数据的话,还行。但是如果是数据很大的,效率就低了。所以我们可以使用第三种方法,位图解决查找数据的问题。

位图概念:
位图是通过每一个比特位来判断一个数是否是在还是不在。一个二进制比特位只有两种状态,要么为0,要么为1,如果某个数据在,则对应映射的比特位为1;不在,对应的比特位为0。位图适用于海量数据处理,且数据无重复的场景,时间复杂度为O(1)

在这里插入图片描述

用位图解决前面的问题:

有40亿个无重复且没有排序的无符号整数,给一个无符号整数,如何判断这个整数是否在这40亿个数中?

首先要了解1G大约等于10亿个字节,1个整数等于4个字节,1个字节等于8个比特位。换算下40亿个整数大约是16G。但是我们不可能开出16G的内存去查找一个数,用位图就可以节省很多空间了。一个整数等于32个比特位,根据位图的概念,用每个比特位是1还是0来确定一个数到底在不在,1个整数的32个比特位可以用来确定32个数据的存在,所以16G除以32等于0.5G,即512M,这就是开辟的空间大小,是不是节省多了。

这里是我们自己模拟出来的一个简单的位图,主要有以下接口:

1️⃣构造
使用vector的接口resize开辟出N / 32 + 1的空间大小,每个位置初始化为0,为什么要除32?因为一个整数有32个比特位,这32个比特位存储在vector数组的一个位置里;为什么又要加1?因为假如开的空间大小是50,50/32等于1,那到底是一个位置还是2个位置?很明显是2个,第一个位置刚好满32个比特位,剩余18个比特位也要有位置放,因此要有第二个位置。

2️⃣将该比特位设置为1
每个数都有对应映射的比特位,将这个数除以32找到该数在数组中的位置,取模32找到映射的第几个比特位,1左移前面取模的位数,然后按位或将该比特位设置为1
在这里插入图片描述

3️⃣将该比特位设置为0
前面同上,先按位取反1左移前面取模的位数后的数,然后按位与将该比特位设置为0
在这里插入图片描述

4️⃣判断状态
前面同上,用按位与,映射的位置和1移动后的位都是1才说明这个数在
在这里插入图片描述

类的模板是非类型模板参数,传的是数据的大小。成员变量是vector类型,方便开辟空间。为什么1是左移?注意:左移不是真的往左边移,右移也不是真的往右边移,跟方向没关系。左移是往高位移动,右移是往低位移动;其次,还要看编译器,vs下是小端存储数据的,所以这里是左移。

代码:

namespace yss
{template<size_t N>class bitset{public://构造bitset(){_bit.resize(N / 32 + 1, 0);}//该比特位 置为1void set(size_t x){size_t i = x / 32;size_t j = x % 32;_bit[i] |= (1 << j);}//该比特位 置为0void reset(size_t x){size_t i = x / 32;size_t j = x % 32;_bit[i] &= ~(1 << j);}//该比特位的状态(在/不在)bool test(size_t x){size_t i = x / 32;size_t j = x % 32;return _bit[i] & (1 << j);}private:vector<int> _bit;};
}void Func1()
{yss::bitset<100> bs;bs.set(30);bs.set(60);bs.set(90);for (size_t i = 0; i < 100; i++){if (bs.test(i)){cout << i << "->" << "在" << endl;}else{cout << i << "->" << "不在" << endl;}}
}

40亿个数据,如下:

yss::bitset<-1>* bs = new bitset<-1>;//第一种写法
yss::bitset<4294967295>* bs = new bitset<4294967295>;//第二种写法

栈的空间有限,对于很大的数据,需要大量的内存空间,应该通过堆来申请。其他同上面代码。

二、海量数据面试题

1️⃣给定100亿个整数,设计算法找到只出现一次的整数?

思路:

  • 使用两个位图来实现,表示00(没有出现) - 01(出现一次) - 10 - 11 的情况(后面两个是出现2个及2个以上),本题是找到只出现一次的整数,所以最终判断这个整数在不在的条件是两个位图映射的比特位是不是01
  • 有100亿个整数,为了映射所有整数,一个位图开辟的空间大小是512M,即2的32次方个比特位,两个合起来是占1G内存

代码:

int main()
{vector<int> a{ 2,2,3,3,5,8,8,14,14,66 };bitset<-1>* bs1 = new bitset<-1>;//指针bitset<-1>* bs2 = new bitset<-1>;for (auto e : a){if (bs1->test(e) == false && bs2->test(e) == false){bs2->set(e);//00->01}else if (bs1->test(e) == false && bs2->test(e) == true){bs1->set(e);bs2->reset(e);//01->10}else{//}}for (size_t i = 0; i < -1; i++){if (bs1->test(i) == false && bs2->test(i) == true){cout << i << endl;// 5   66}}return 0;
}

2️⃣给两个文件,分别有100亿个整数,我们只有1G内存,如何找到两个文件交集?

思路:

  • 既然给两个文件,那么也要用两个位图。100亿个整数,跟前面一样,一个位图也是512M,两个位图刚好1G
  • 只需判断某个数据在两个位图是否存在即可,如果两个位图的对应映射的比特位都是1,就是交集;反之,有一个不是1,或者两个都是0就不是交集

代码:

int main()
{vector<int> a1{ 2,4,6,8,10,14,20 };vector<int> a2{ 1,3,4,5,7,9,10,17 };bitset<-1>* bs1 = new bitset<-1>;bitset<-1>* bs2 = new bitset<-1>;for (auto e : a1){bs1->set(e);}for (auto e : a2){bs2->set(e);}for (size_t i = 0; i < -1; i++){if (bs1->test(i) == true && bs2->test(i) == true){cout << i << endl;// 4  10}}return 0;
}

3️⃣1个文件有100亿个int,1G内存,设计算法找到出现次数不超过2次的所有整数

思路:

  • 步骤同问题1,在它的基础上增加了10->11的情况,即出现3次和3次以上,然后最后判断条件为出现1次和2次的数据打印出来

代码:

int main()
{vector<int> a{ 2,4,4,5,5,5,7,9,9,9,9 };bitset<-1>* bs1 = new bitset<-1>;bitset<-1>* bs2 = new bitset<-1>;for (auto e : a){if (bs1->test(e) == false && bs2->test(e) == false){bs2->set(e);//00->01 出现1次}else if (bs1->test(e) == false && bs2->test(e) == true){bs1->set(e);bs2->reset(e);//01->10 出现2次}else if (bs1->test(e) == true && bs2->test(e) == false){bs2->set(e);//10->11 出现3次}//3次以上}for (size_t i = 0; i < -1; i++){if ( (bs1->test(i) == false && bs2->test(i) == true)|| (bs1->test(i) == true && bs2->test(i) == false)){cout << i << endl;// 2  4  7}}return 0;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/788869.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

达梦DMHS-Manager工具安装部署

目录 1、前言 1.1、平台架构 1.2、平台原理 2、环境准备 2.1、硬件环境 2.2、软件环境 2.3、安装DMHS 2.3.1、源端DMHS前期准备 2.3.2、源端DMHS安装 2.3.3、目的端DMHS安装 3、DMHS-Manager客户端部署 3.1、启动dmhs web服务 3.2、登录web管理平台 4、添加DMHS实…

Docker、Kubernetes之间的区别

比较容器化工具&#xff1a;了解 Docker、Kubernetes 在应用程序部署和管理方面的差异。 基本概述 Docker 是一个流行的容器化平台&#xff0c;允许开发人员在容器中创建、部署和运行应用程序。 Docker 提供了一组工具和 API&#xff0c;使开发人员能够构建和管理容器化应用程…

SpringBoot中操作Bean的生命周期的方法

引言 在 Spring Boot 应用中&#xff0c;管理和操作 Bean 的生命周期是一项关键的任务。这不仅涉及到如何创建和销毁 Bean&#xff0c;还包括如何在应用的生命周期中对 Bean 进行精细控制。Spring 框架提供了多种机制来管理 Bean 的生命周期&#xff0c;这些机制使得开发者可以…

windows部署Jenkins并远程部署tomcat

目录 1、Jenkins官网下载Jenkins 2、安装Jenkins 3、修改Home directory 4、插件安装及系统配置 5、Tomcat安装及配置 5.1、修改配置文件,屏蔽以下代码 5.2、新增登录用户 5.3、编码格式修改 5.4、启动tomcat 6、Jenkins远程部署war包 6.1、General配置 6.2、Sourc…

AKF扩展立方体和AKF可用性立方体

很多人知道AKF扩展立方体是从《架构即未来》这本书开始。实际上akfpartners官方写过4篇关于AKF扩展立方体的文章&#xff0c;还有一篇介绍AKF可用性立方体。akfpartners官方在高可用、扩展性方面有很多专业技术文章&#xff0c;建议有空就翻翻看。 AKF扩展立方体和AKF可用性立方…

C++之结构体初始化10种写法总结(二百六十六)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

是否有替代U盘,可安全交换的医院文件摆渡方案?

医院内部网络存储着大量的敏感医疗数据&#xff0c;包括患者的个人信息、病历记录、诊断结果等。网络隔离可以有效防止未经授权的访问和数据泄露&#xff0c;确保这些敏感信息的安全。随着法律法规的不断完善&#xff0c;如《网络安全法》、《个人信息保护法》等&#xff0c;医…

[lesson02]C到C++的升级

C到C的升级 C与C的关系 C继承了所有的C特性C在C的基础上提供了更多的语法和特性C的设计目标是运行效率与开发效率的统一 C到C的升级 C更强调语言的实用性 所有的变量都可以在需要使用时再定义 int c 0; for (int i 1; i < 3; i) {for(int j 1; j < 3; j){c i * …

EVM Layer2 主流解决方案

深度解析主流 EVM Layer 2 解决方案&#xff1a;zk Rollups 和 Optimistic Rollups 随着以太坊网络的不断演进和 DeFi 生态系统的迅速增长&#xff0c;以太坊 Layer 2 解决方案日益受到关注。 其中&#xff0c;zk Rollups 和 Optimistic Rollups 作为两种备受瞩目的主流 EVM&…

【AAOS车载系统+AOSP14系统攻城狮入门实战课】:正式上线了(二百零三)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

数据如何才能供得出、流得动、用得好、还安全

众所周知&#xff0c;数据要素已经列入基本生产要素&#xff0c;同时成立国家数据局进行工作统筹。目前数据要素如何发挥其价值&#xff0c;全国掀起了一浪一浪的热潮。 随着国外大语言模型的袭来&#xff0c;国内在大语言模型领域的应用也大放异彩&#xff0c;与此同时&#x…

使用docker部署MongoDB数据库

最近由于工作需要搭建MongoDB数据库&#xff1a;将解析的车端采集的数据写入到数据库&#xff0c;由于MongoDB高可用、海量扩展、灵活数据的模型&#xff0c;因此选用MongoDB数据库&#xff1b;由于现公司只有服务器&#xff0c;因此考虑容器化部署MongoDB数据&#xff0c;特此…

db2 使用jdbc建立连接时,指定schema,schema不存在也会连接成功

使用db2想指定schema&#xff0c;使用语句如下 jdbc:db2://" hostname ":" port "/" databaseName ":currentSchema" this.databaseSchema ";"; 切记&#xff1a;最后的分号一定要有&#xff0c;否则报错。 但是此处有…

Android手势密码–设置和校验功能的实现代码

效果图如下&#xff0c;大家感觉不错请参考实现代码 具体代码如下所示&#xff1a; private void setGesturePassword() {toggleMore.setOnCheckedChangeListener(new CompoundButton.OnCheckedChangeListener() {Overridepublic void onCheckedChanged(CompoundButton button…

【linux】lsof命令使用

1. 功能 lsof list open files, 列出被进程所使用的文件名称。 2. 基础语法 3. 参数含义 参数含义-a过滤出多个选项要同时满足的文件-U仅列出UNIX-like系统的socket文件类型。-u指定用户&#xff0c;比如-u atiaisi&#xff0c;会把用户atiaisi相关的进程使用的文件列出来。…

24/04/02总结

API: bigdecima: 方法名 说明 public static BigDecimal valueof( double val) 静态获取对象 public BigDecimal add(BigDecimal val) 加法 public BigDecimal subtract(BigDecimal val…

【路径规划论文整理(1)】Path Deformation Roadmaps(附带对PRM改进算法、同伦映射的整理)

本系列主要是对精读的一些关于路径搜索论文的整理&#xff0c;包括了论文所拓展的其他一些算法的改进思路。 这是本系列的第一篇文章&#xff1a; Jaillet, Lonard & Simon, Thierry. (2008). Path Deformation Roadmaps: Compact Graphs with Useful Cycles for Motion Pl…

Spring Boot接收从前端传过来的数据常用方式以及处理的技巧

一、params 传参 参数是会拼接到url后面的请求 场景规范:url后面的key值<=3个参数的时候,使用params 传参 支持的请求方式:get(正规的是get方式)、post 都行 例如: http://localhost:8080/simpleParam?name=Tom&age=10 在postman里面的体现为 后端接收的接口…

格式化输出数据

JDK 5 新特性&#xff0c;格式化输出数据 长度不够前面补空格&#xff0c;超出长度按实际输出 System.out.printf(“格式控制部分”,表达式1,表达式2,,表达式n); 格式控制部分由格式符号、普通字符组成&#xff0c;普通字符原样输出&#xff0c;格式符号输出表达式的值 // …

Python+requests+Pytest+logging+allure+pymysql框架详解

一、框架目录结构 1)tools目录用来放公共方法存储,如发送接口以及读取测试数据的方法,响应断言 数据库断言 前置sql等方法;2)datas目录用例存储接口用例的测试数据,我是用excel来存储的数据,文件数据 图片数据等;3)testcases目录用来存放测试用例,一个python文件对应…