使用2G内存求20亿个数字中出现次数最多的N个

使用2G内存求20亿个数字中出现次数最多的N个

bicheng/2025/7/6 8:42:51/文章来源:https://blog.csdn.net/robinfoxnan/article/details/138682655

又是一个TOP -N的题目

我看了一下CSDN上大多数人的回答和GPT说的差不多，都是说使用哈希之类的；

我今天说一下我的解法，首先说一下不太快的基础解法

20亿数字使用uint32需要80GB，

（1）分为40块读取，每次2GB，排序后写入文件；

（2）对40个文件使用滑块方式推进合并，块大小50M，合并为一个大文件；

（3）重新扫描这个排序后的大文件。

总体思路就是外部归并排序。

缺点是读写次数太多了。优化一下，

20亿数字，使用UINT32共80GB数据：

1）分为80块，分块读取1G，排序后保存到文件，其中只保存每个数字的次数；所以每个数字需要一个多余的uint32来计数；最差的情况下是每个数字出现1次，保存文件不超过2G；最好的情况下这个文件也许只有8字节；

2）对80个文件归并排序，可以写到一个大文件里，每个文件的滑动块大小为25MB；注意，归并的同时，就可以知道当前最大次数的数字，所以可以不写入合并的大文件；

连GTP看了方案都说好，它评价曰：

1）分块读取和排序：将20亿个数字分成80块，每块1GB大小，这样确保了每个小块可以在内存中进行排序，同时最大限度地减少了内存的使用。
2）压缩存储：在每个小块中，只保存每个数字出现的次数，而不是保存所有数字。这样可以大大减少文件的大小，确保每个文件不超过2GB的限制。
3）归并排序：对80个文件进行归并排序，每次合并时，使用滑动块大小为25MB。这样可以在内存有限的情况下高效地进行归并排序操作。
4）实时统计最大次数的数字：在归并排序的过程中，可以实时统计当前出现次数最多的数字。这样可以避免在最后重新扫描文件来找到最大次数的数字，从而提高了效率。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/9738.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Vue.js 组件 - 自定义事件

Vue.js 组件 - 自定义事件

父组件是使用 props 传递数据给子组件，但如果子组件要把数据传递回去，就需要使用自定义事件！ 我们可以使用 v-on 绑定自定义事件, 每个 Vue 实例都实现了事件接口(Events interface)，即： 使用 $on(eventName) 监听事…

阅读更多...

c++opencv Project3 - License Plate Detector

c++opencv Project3 - License Plate Detector

俄罗斯车牌识别案例：实时识别车牌，并且读取到指定文件夹中。惯例先展示结果图： 对于摄像头读取图片进行车牌匹配，原理和人脸识别其实是一致的。利用训练好的模型进行匹配即可。可参考： 对视频实现人脸识别-CSDN博…

阅读更多...

电能表远程抄表系统是什么？

电能表远程抄表系统是什么？

电能表远程抄表系统是一种优秀的电力管理方法，它通过自动化的形式搜集、解决与分析电能表的信息，进而取代了传统人工抄水表方法。其主要原理是运用物联网技术、通讯技术和大数据处理技术，完成对电度表数据信息实时、远程控制获取和管理方法。…

阅读更多...

探索无界知识：用 ChatGPT 的原理学习任何事物！

探索无界知识：用 ChatGPT 的原理学习任何事物！

为避免文章重复，您的文本已通过更改句式、用词以及句子结构进行了修改。现在的文本应该能更好地满足去重的需求： 从ChatGPT原理出发，我们探讨GPT如何启发人类学习和构建个人知识体系。 1. 明确学习目标机器学习必须依靠目标函数。同样&…

阅读更多...

【Qt 开发基础体系】QMap 类和 QHash 类以及 QVector 类

【Qt 开发基础体系】QMap 类和 QHash 类以及 QVector 类

文章目录 1.QMap 详解1.1 QMap 的介绍1.2 QMap 的具体用法如下1.3 QmultiMap类 2.QHash 详解3. QMap 和 QHash 的对比4. QVector 详解 1.QMap 详解 1.1 QMap 的介绍 🐧① QMap<key,T>提供一个从类型为Key的键到类型为T的值的映射。通常，QMap存储的…

阅读更多...

STC8增强型单片机开发【串口调试UART⭐⭐】

STC8增强型单片机开发【串口调试UART⭐⭐】

目录一、引言二、UART基础知识三、STC8 UART配置四、代码示例上列代码中所需的库函数文件： 引入库函数的流程： 五、总结一、引言在单片机开发中，串口调试（UART）是一种常用的通信方式，用于实现…

阅读更多...

LC719

LC719

719. 找出第 K 小的数对距离 719. 找出第 K 小的数对距离 - 力扣（LeetCode） 数对 (a,b) 由整数 a 和 b 组成，其数对距离定义为 a 和 b 的绝对差值。给你一个整数数组 nums 和一个整数 k ，数对由 nums[i] 和 nums[j] 组成且满足 …

阅读更多...

linux grep命令搜索指定路径

linux grep命令搜索指定路径

在Linux开发的过程中grep这个搜索命令，是必不可少的存在。它可以快速的搜索出来我们需要的关键字所在的位置。有助于我们快速分析定位问题。下面，分享一个简单实用的小技巧。原始grep 最终grep grep过滤掉二进制的文件 -I选项结论这样子是不…

阅读更多...

126.删除链表的倒数第N个节点（力扣）

126.删除链表的倒数第N个节点（力扣）

题目描述代码解决（双指针） /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x), next(nullptr) {}* ListNode(int x, Li…

阅读更多...

【QT教程】QT6信号与槽 QT信号与槽

【QT教程】QT6信号与槽 QT信号与槽

QT6信号与槽使用AI技术辅助生成 QT界面美化视频课程 QT性能优化视频课程 QT原理与源码分析视频课程 QT QML C扩展开发视频课程免费QT视频课程您可以看免费1000个QT技术视频免费QT视频课程 QT统计图和QT数据可视化视频免费看免费QT视频课程 QT性能优化视频免费看免费QT视…

阅读更多...

C++-Primer-Plus 习题解答（第十六章-string类和标准模板库）

C++-Primer-Plus 习题解答（第十六章-string类和标准模板库）

题目：16.1 回文指的是顺读和逆读都一样的字符串。例如，“tot”和“otto”都是简短的回文。编写一个程序，让用户输入字符串，并将字符串引用传递给一个bool函数。如果字符串是回文，该函数将返回true，否则返…

阅读更多...

全视通助力珠海市井岸镇卫生院新院，建设智慧病房

全视通助力珠海市井岸镇卫生院新院，建设智慧病房

5月6日，位于珠海市斗门区的井岸镇卫生院新院正式启用，面向市民开诊。新院各诊区就医秩序井然，总体情况良好。据统计，截至开诊当天11点30分，新院门诊共接诊347人次，预防接种81人次，儿童体检33人次…

阅读更多...

网络相关笔记

网络相关笔记

IPv4地址 IPv4地址通常以“点分十进制”形式书写，即四个0-255之间的十进制数，各数之间用英文句点（.）分隔，例如：192.0.2.1。总共32位的地址空间可以表示大约42亿个不同的地址。 IPv4地址结构包括&#xff…

阅读更多...

HashSet扩容机制

HashSet扩容机制

HashSet底层是HashMap，第一次添加的时候，table数组扩容到16，临界值是16*加载因子（默认是0.75），到达临界值进行扩容。 HashSet<Integer> hashSet = new HashSet<>();hashSet.add(5);hashSet.add(2);hashSet.add(5);hashSet.add(8);hashSet.add(1);当new一个H…

阅读更多...

【C++STL详解(十)】--------priority_queue的模拟实现

【C++STL详解(十)】--------priority_queue的模拟实现

目录前言一、堆的向上调整算法二、堆的向下调整算法三、优先队列模拟实现 Ⅰ、接口总览 Ⅱ、各个接口实现 1.构造函数 2.仿函数 3.向上调整 4.向下调整 5.其余接口 Ⅲ、完成代码前言上节内容我们简单的介绍了关于priority_queue的使用内容，我们明白…

阅读更多...

秒杀系统架构设计-01

秒杀系统架构设计-01

前言在当今互联网技术快速发展的背景下，电商平台的秒杀活动成为了一个热门话题。特别是对于技术人员而言，如何设计一个高效、可靠的秒杀系统架构，已经成为了面试中的常见问题。这篇博文将围绕秒杀系统架构设计的大纲和授课思路，…

阅读更多...

【TypeScript高级类型简介以及使用方法】

【TypeScript高级类型简介以及使用方法】

TypeScript 的高级类型提供了更复杂的类型系统，允许开发者更精确地描述和约束代码中的数据类型。以下是几种常用的 TypeScript 高级类型及其简介和使用方法： 交叉类型（Intersection Types） 交叉类型是将多个类型合并为一个类型&…

阅读更多...

Baidu Comate 编程插件：提升开发效率的利器

Baidu Comate 编程插件：提升开发效率的利器

文章目录引言简介目的 Baidu Comate插件概述定义与功能市场现状竞品分析安装与配置VsCode 安装：注意事项版本选择核心特性详解功能介绍代码生成实时续写错误纠正使用体验体验地址引言简介基于文心大模型，结合百度积累多年的编程现场大数据和外…

阅读更多...

三维dp，LeetCode 741. 摘樱桃

三维dp，LeetCode 741. 摘樱桃

一、题目 1、题目描述给你一个 n x n 的网格 grid ，代表一块樱桃地，每个格子由以下三种数字的一种来表示： 0 表示这个格子是空的，所以你可以穿过它。1 表示这个格子里装着一个樱桃，你可以摘到樱桃然后穿过它。-1 表示…

阅读更多...

设计一个people类如何输入用户自定义个数的对象?

设计一个people类如何输入用户自定义个数的对象?

题目: 设计一个People 类，该类的数据成员有姓名、年龄、身高、体重和人数，其中人数为静态数据成员，成员函数有构造函数、显示和显示人数。其中构造函数由参数姓名、年龄、身高和体重来构造对象；显示函数用于显示人的姓名、年龄、…

阅读更多...

最新文章