对10亿个数据去重java_20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap...

有一道流传广泛的面试题:

给你一台 4G 内存的机器,一组 20 亿个无序正整数,如何快速地判断一个正整数 N 是否在这组数字中?或者如何快速地对这组数据排重后排序?

让我们先算算 20 亿个整数会占用多大的内存空间,Java 的 int 类型占用 4 个字节,那么 20 亿 * 4 再换算成 G 大约是 7.5G,大于题目中 4G 内存的限制,无法一次性地放到内存中;

这时候有些伙伴会说:“把数据放到磁盘上,然后分批将数据读取到内存中就行查询”,但是这种方法会导致多次磁盘 IO,而且只能解决第一个查找的问题,排序就没有办法做到了。

01

BitMap 的概念

BitMap 能够很好地解决这个问题;它是用一个 Bit 位来标记某个元素对应的 Value, 而 Key 即是该元素,比如我们初始化一个类型为 bit、长度为 8 的数组,数组下标 0-7,数组中的内容 1 表示存在,0 表示不存在,那么:

691403e83b9c5a455e281e371e8b4625.png

00000001 下标为 0 的位置,对应值是1,那么表示 0;同理:

00000010 表示 1;

00000100 表示 2;

00001000 表示 3;

...

10000000 表示 7;

如果一组数据 {2,3,4,7} 放到同一个数组中的话,就是 10011100:

e0e73a3364a06b57ce0285ba570dc475.png

如果按照 int 数组存储,{2,3,4,7} 需要 4 * 4 * 8 个 bit 才能存储的数据,但是现在 BitMap 只需要 8 个 bit 就可以存储,很大地节省了存储空间,并且排重后的排序也变的非常简单了;如果用 byte 实现的话,只需要 1 个 byte 就可以(1 byte = 8 bits)。

如果增加了一个数字 10 呢,那么 1 个 byte 就不够了:

b61f62663faf0ff5775dba14568c7074.png

02

数据结构及初始化

我们可以得知,BitMap 的容量大小取决于最大的那个数值,比如要存储 {2,3,4,7,10}:

如果用 bit 数组实现(假如有的话),那么需要 10 + 1 个长度;

如果是用 byte 数组实现,那么需要 10/8 + 1 个长度;

如果是用 int 数组实现,那么就需要 10/32 + 1 个长度(1 个 int 等于 4 个 bytes,等于 32 个 bits);

明白了这点之后,一个简单的 BitMap 数据结构也就可以确定了:

public class BitMap {//数据private byte[] bits;//最大值private int max_value;//容量private int capacity;/*** 初始化* @param capacity*/public BitMap(int max_value){this.max_value = max_value;//1bit存储8个数据,存储最大值为 max_value 的数组需要 max_value/8+1 个 byte,除以8就是右移3位this.capacity = (max_value >> 3 ) + 1;bits = new byte[capacity];}}

03

添加数据

添加数据,需要快速地定位到这个元素要存到整个数组中的哪个位置,这里有两个概念:

索引号 index:数据保存在整个数组的哪个下标中;

位置号 position:数据在这个下标元素的哪个位置;

比如 10 保存在 index = 1,position = 2(从 0 开始) 这个位置中,经推算可得:

index = N / 8position = N % 8

b35c4c8646c5eb6d1320ed5542d63a23.png

知道了 10 保存的位置之后,怎么把对应位置的数据更改成 1 呢?可以用“位或”运算。将 10 添加到 BitMap 中的完整步骤如下:

计算 index = 10/8 = 1 ;

计算 position = 10%8 = 2 ;

将 byte[1] 的数据与 0000100 做“位或”运算,其中 0000100 是通过对 1 左移 2 得到。

完整的代码如下:

public void add(int num){//数据保存在整个数组的哪个下标中int index = num / 8;//数据在这个下标元素的哪个位置int position = num % 8;bits[index] |= 1<

04

判断数字是否存在

知道了如何判断数字的索引号和位置号之后,判断数字是否存在也就容易了,直接使用“位与”运算,代码如下:

public boolean contains(int num){if(num > max_value){return false;}//数据保存在整个数组的哪个下标中int index = num / 8;//数据在这个下标元素的哪个位置int position = num % 8;return (bits[index] & 1<

05

测试

让我们做一下测试吧:

public class BitMapTest {public static void main(String[] agrs){BitMap bm = new BitMap(100);bm.add(1);bm.add(12);bm.add(14);bm.add(51);bm.add(71);bm.add(100);System.out.println("12:" + (bm.contains(12)?"存在":"不存在"));System.out.println("13:" + (bm.contains(13)?"存在":"不存在"));System.out.println("51:" + (bm.contains(51)?"存在":"不存在"));System.out.println("66:" + (bm.contains(66)?"存在":"不存在"));System.out.println("100:" + (bm.contains(100)?"存在":"不存在"));}}

运行结果:

12:存在13:不存在51:存在66:不存在100:存在

从结果可以看到,判断的都很准确,当然这只是一个最简单的BitMap实现,它还存在着很多问题,比如我们必须知道数据中最大的那个数字是多少,这个可以采用动态扩容的方式解决;

在 JDK 中,已经有对应实现的数据结构类java.util.BitSet,我们可以不用强撸 BitMap,直接使用 BitSet 就好了,或者使用谷歌封装的EWAHCompressedBitmap。

06

优缺点

优点:

占用内存空间低,可以极大地节约空间;

运算效率高,查找、去重都不需要遍历全部数据;

缺点:

所有的数据不能重复,相当于直接就是排重过的;

如果数据只有两个:1 和 10000000,使用 BitMap 得不偿失,只有当数据比较密集时才有优势。

本章节介绍了 BitMap 的概念和基本实现,后续会介绍 BitMap 在实际开发中的应用。

期待分享

如果您喜欢本文,请点个“在看”或分享到朋友圈,这将是对我最大的鼓励。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487450.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大佬共话AI:“三马二宏”等亮相2020年世界人工智能大会

&#xff08;视频来源&#xff1a;腾讯视频新民晚报&#xff09;来源 | 数据观综合&#xff08;转载请注明来源&#xff09;编辑 | 蒲蒲7月9日上午&#xff0c;2020世界人工智能大会云端峰会(WAIC)在上海正式开幕&#xff0c;人工智能概念又一次被行业点燃。大会上&#xff0c;…

java远程调试挂起线程_java进程的远程调试

一、jdb调试mqbroker(jvm参数配置)2.利用jdb/idea/eclipse 远程调试&#xff0c;同本地调试一样二、jvisualvm jvm 监视使用jstatd连接nohup $JAVA_HOME/bin/jstatd -p 1099 -J-Djava.security.policy使用jmx连接(需配置jvm启动参数据)由于jvisualvm采器需要使用jmx&#xff0c…

简单图形打印(需求分解)

打印任意高度的实心菱形 菱形的打印是一个相对复杂的需求&#xff0c;我们需要把它分解成为多个简单的需求来完成。 将它看作是两个部分&#xff0c;上面一个三角形&#xff0c;下面一个倒三角形。 再依次实现打印。 代码如下&#xff1a; //打印任意高度的菱形 public class G…

机器人研究员的崛起 |《自然》论文

来源&#xff1a;Nature自然科研根据本周《自然》发表的一篇论文A mobile robotic chemist&#xff0c;汽车装配线上常见的机器人经过改造后&#xff0c;可以在化学实验室内和人类一起工作。该机器人和机器学习算法相连&#xff0c;能够在给定需要检验什么假设的情况下&#xf…

《EE Times》评出2020年全球最值得关注的18家传感器公司

来源&#xff1a;仪商网每年&#xff0c;美国著名电子技术类杂志《EE Times》都会评选出全球值得关注的新创半导体公司排行榜。今年已轮到了第20届&#xff0c;相较以往&#xff0c;最大的变化是这一届的榜单由60家增至100家。在今年的榜单中&#xff0c;保留了上一届中的49家公…

webstorm配置Monokai-Sublime.jar主题

https://github.com/OtaK/jetbrains-monokai-sublime 导入下载的Monokai-Sublime.jar jar包即可使用。 转载于:https://www.cnblogs.com/sirwang/p/7657975.html

用洪小文,人工智能予力永续未来

来源&#xff1a; 微软研究院AI头条 二十一世纪第三个十年的开局时刻有些艰难。当许多人还在为澳大利亚森林大火和席卷东非、西亚的蝗虫灾害而担忧时&#xff0c;一场突如其来的疫情又在全球各国次第爆发&#xff0c;迄今仍未有止息迹象。事实上&#xff0c;被疫情困扰的不仅是…

腾讯发布2020人工智能白皮书:泛在智能

来源&#xff1a;腾讯研究院7月10日&#xff0c;在世界人工智能大会腾讯论坛上&#xff0c;腾讯集团副总裁、腾讯研究院院长司晓正式发布了《腾讯人工智能白皮书&#xff1a;泛在智能》&#xff08;以下简称白皮书&#xff09;。作为腾讯第一份全面介绍AI、阐述腾讯人工智能布局…

相学java_从这两套题,重新认识JS的this、作用域、闭包、对象

日常开发中&#xff0c;我们经常用到this。例如用Jquery绑定事件时&#xff0c;this指向触发事件的DOM元素&#xff1b;编写Vue、React组件时&#xff0c;this指向组件本身。对于新手来说&#xff0c;常会用一种意会的感觉去判断this的指向。以至于当遇到复杂的函数调用时&…

Ipython知识点总结

初识Python&#xff1a; Python是一种面向对象、直译式计算机程序语言。也是一种功能强大而完善的通用型语言&#xff0c;已经具有十多年的发展历史&#xff0c;成熟且稳定。Python 具有脚本语言中最丰富和强大的类库&#xff0c;足以支持绝大多数日常应用。 Python语法简捷而清…

光刻技术的“鬼斧”之变

来源:脑极体 在我们今天看来&#xff0c;晶体管发明以后&#xff0c;集成电路的出现一直到今天超大规模集成电路的出现&#xff0c;似乎是一件水到渠成的事情。但是如果回到半导体产业初兴的历史现场&#xff0c;我们就会发现没有任何一项关键技术的突破是“必然产生”的。&…

php设置html全局路径_PHPCMS V9 URL去掉或修改/html路径的方法

PHPCMS V9 URL去掉或修改/html路径的方法&#xff0c;在后台找了好长时间没有找到在哪儿可以设置栏目生成的前缀路径/html,不过最终还是找到了。修改配置文件。找到\caches\configs\system.php 找到“html_root”这一项&#xff0c;然后把/html这个字符串删除即可。更新缓存&am…

城市大脑从起源到终极状态的7个阶段

0.序言21世纪以来&#xff0c;前沿科技领域出现诸多“大脑”概念&#xff0c;如谷歌大脑&#xff0c;百度大脑&#xff0c;阿里大脑&#xff0c;360安全大脑&#xff0c;腾讯超级大脑等&#xff0c;城市大脑&#xff0c;城市神经网络&#xff0c;工业大脑&#xff0c;航空大脑&…

地理信息技术加持 用数字孪生让城市更“聪明”

文章转载自微信公众号中地数码MapGIS&#xff0c;版权归原作者及刊载媒体所有。相关资料表明&#xff0c;过去二十年&#xff0c;中国智慧城市建设投资巨大&#xff0c;建设的传感网络已经领先全球&#xff0c;但硬件重复建设&#xff0c;多注重单方面的智慧化建设&#xff0c;…

你所不知道的SQL Server数据库启动过程(用户数据库加载过程的疑难杂症)

转http://www.cnblogs.com/zhijianliutang/p/4100103.html 前言 本篇主要是上一篇文章的补充篇&#xff0c;上一篇我们介绍了SQL Server服务启动过程所遇到的一些问题和解决方法&#xff0c;可点击查看&#xff0c;我们此篇主要介绍的是SQL Server启动过程中关于用户数据库加载…

可持续发展的人工智能

微软亚洲研究院副院长刘铁岩在 WAIC 2020 微软论坛演讲视频来源&#xff1a;微软研究院AI头条可持续发展是一个非常重要的主题&#xff0c;无论是环保、健康、能源和材料&#xff0c;都与人类的生存和发展息息相关。随着工业的发展和科技的进步&#xff0c;我们看到大气、水质、…

Sqring核心概念

Spring 是大规模企业级框架&#xff0c;用户数量多&#xff0c;数据规模大&#xff0c;功能众多&#xff0c;业务复杂&#xff0c; 性能和安全要求高 灵活多变 Spring框架是轻量级的框架&#xff0c;javaEE的春天&#xff0c;当前主流的框架&#xff0c;一站式的企业应用开发…

台积电2纳米获得重大突破

来源&#xff1a;经济日报&#xff08;台&#xff09;台积电冲刺先进制程&#xff0c;在2纳米研发有重大突破&#xff0c;已成功找到路径&#xff0c;将切入GAA&#xff08;环绕闸极&#xff09;技术&#xff0c;为台积电发展鳍式场效电晶体&#xff08;FinFET&#xff09;取得…

php url乱码java接收,java中url乱码解决方法

java中url乱码解决方法&#xff1a;(推荐&#xff1a;java视频教程)1、将字符串转码&#xff1a;newString(“xxxxx”.getBytes(“iso-8859-1”),”utf-8”)这种转码方式有很大的弊端&#xff0c;因为它是使用指定的字符集将此String编码为 byte 序列&#xff0c;并将结果存储到…