大数据-TXT文本重复行计数工具

支持系统类型:Windows 64位系统 Linux 64位系统 苹果64位系统

硬盘要求:固态硬盘(有效剩余磁盘空间大小最低3倍于大数据文件的大小)

内存要求:最低8G(例如只有几百G数据) 如果处理TB级大数据文件最低需32G内存

大数据格式:M行1列 或M行N列          作者QQ:24759362

初次使用建议完全模仿截图里出现的文件夹和空记事本文件命名,日常使用时可以根据自己的喜好命名文件夹和空记事本文件

范例测试数据1:D:\testBigDataFile\test1BigData.txt

1000
1001
1001
1002
1003
1004
1004
1005
1006
1007
1007
1008
1009
1010
1011
1011
1012
1013
1013
1013
1013
1014
1014
1015
1016
1017
1017
1018
1019
1020
1021
1021
1022
1023
1023
1023
1023
1024
1024
1025
1026
1027
1027
1028
1029
1030
1031
1032
1033
1033
1033
1033
1034
1035
1036
1037
1038
1039
1040
1041
1042
1043
1043
1043
1043
1044
1045
1046
1047
1048
1049
1050
1051
1051
1052
1053
1054
1054
1055
1056
1057
1057
1058
1059
1060
1061
1062
1063
1063
1063
1063
1064
1065
1066
1067
1068
1069
1070
1071
1071
1072
1073
1073
1073
1073
1074
1074
1075
1076
1077
1077
1078
1079
1080
1081
1082
1083
1083
1083
1083
1084
1085
1086
1087
1088
1089
1090
1091
1092
1093
1093
1093
1093
1094
1095
1096
1097
1098
1099
2000

运行输出结果如下:

D:\resultBigDataFile\result1BigData.txt

1011
1077
1021
1054
1074
1051
1071
1007
1017
1027
1004
1014
1024
1057
1001

如果上面范例测试数据1运行后想输出如下结果:请勾选“显示输入重复次数

1011    1
1077    1
1021    1
1054    1
1074    1
1051    1
1071    1
1007    1
1017    1
1027    1
1004    1
1014    1
1024    1
1057    1
1001    1

 范例测试数据2:D:\testBigDataFile\test2BigData.txt

 Alan    436628269
Alan    436628269
Alan    436628269
Bill    611492701
Cana    1397118521
Dunn    2444556928
Connor    1998963357
Emma    2206666209
Gina    777284571
Gina    777284571
Gina    777284571
Gina    777284571
Ivin    970322252
Jack    1262597716
Jane    578355382
July    136208476
Lily    433285072
Onan    371221381
Owen    1266462145
Peni    130864920
Rynn    2480931452
Rynn    2480931452
Rynn    2480931452
Rynn    2480931452
Rynn    2480931452
Rynn    2480931452
Sims    921827919
Tina    2561855784
Tony    2084111552
Voni    2587044445
Waco    423088657
Aidan    2010046647
Alvin    468664591
Anita    1956739105
Becky    1363871905
Becky    1363871905
Becky    1363871905
Becky    1363871905
Bowen    234135199
Casey    1548163632
Cathy    678234228
Chloe    1381166262
Dwana    2282473415
Edith    1967993078
Edith    1967993078
Elman    1560665871
Ethan    2267535885
Fiona    604587235
Haley    800961135
Jones    2344119816
Jones    2344119816
Joyce    1344843140
Kelly    2122606210
Kevin    1717469490
Laure    736740442
Mulki    566237493
Najma    2419841329
Najma    2419841329
Najma    2419841329
Randy    1502861227
Ricka    236260413
Rizza    1535082737
Robrt    196943032
Shawn    851297787
Susan    334018114
Tejah    676974423
Tejah    676974423
Tejah    676974423
Tejah    676974423
Tejah    676974423
Tejah    676974423
Tejah    676974423
Tejah    676974423
Tejah    676974423
Wasim    524075634
Water    90008183
Wendy    1164084217
Yilia    1466222253
Aazeen    1012146857
Anikah    443308821
Bladen    731124027
Brooke    92025515
Brynda    1110273669
Carlos    2196254518
Dillon    520140680
Easter    2712179738
Fallyn    1383225641
Hammad    705756913
Hammad    705756913
Hammad    705756913
Hammad    705756913
Hammad    705756913
Hinson    149640852
Hinson    149640852
Hinson    149640852
Jackie    176340867
Johnny    888922082
Lauren    2414296053
Lunell    913395291
Madlin    1781194530
Martin    636062663
Nyonna    1422469714
Polina    2122873196
Pruitt    314428860
Quavon    689418797
Quavon    689418797
Sallie    800910135
Selina    1232437171
Sumiye    628112094
Summer    2278440448
Uniyah    1115416023
Vaiden    620408210
Winter    2695510343
Yasmen    961534555
Yoland    1291468531
Yusuke    2619560595
Abraham    2578725567
Addison    1332247227
Anthony    544174558
Bartley    1153366461
Blanche    101955333
Bullman    1529760215
Camille    1092452082
Charles    1664580393
Connor    2117335737
Crystal    1042531868
Destiny    1659408747
Hartlyn    2192622982
Jenicia    275384039
Lovinia    779964794
Madilee    400032052
Nicolle    559240963
Noython    2106815835
Quintin    2314360024
Ricayla    2347843740
Severin    1824633312
Solomon    606320831
Tanecia    1419387413
Tiffine    2033116728
Vallene    1492277709

 

运行输出结果如下:

D:\resultBigDataFile\result2BigData.txt

 

Edith    1967993078    1
Najma    2419841329    2
Gina    777284571    3
Hinson    149640852    2
Alan    436628269    2
Hammad    705756913    4
Rynn    2480931452    5
Becky    1363871905    3
Jones    2344119816    1
Tejah    676974423    8
Quavon    689418797    1

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/782219.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32 软件I2C方式读取AS5600磁编码器获取角度例程

STM32 软件I2C方式读取AS5600磁编码器获取角度例程 🔖本例程使用正点原子例程作为工程模板创建。 📘 硬件电路部分 🌿原理图部分: 🌿PCB布线和电路 ✨注意事项:有些硬件需要I2C上拉,否则检…

校园局域网钓鱼实例

Hello ! 我是"我是小恒不会java" 本文仅作为针对普通同学眼中的网络安全,设计的钓鱼案例也是怎么简陋怎么来 注:本文不会外传代码,后端已停止使用,仅作为学习使用 基本原理 内网主机扫描DNS劫持前端模拟后端…

HTTP和tcp的区别

HTTP(Hypertext Transfer Protocol)和TCP(Transmission Control Protocol)是互联网通信中的两个不同层次的协议,它们之间有着以下区别: 层次不同: TCP是传输层协议,负责在网络上可靠…

【2023】kafka入门学习与使用(kafka-2)

目录💻 一、基本介绍1、产生背景2、 消息队列介绍2.1、消息队列的本质作用2.2、消息队列的使用场景2.3、消息队列的两种模式2.4、消息队列选型: 二、kafka组件1、核心组件概念2、架构3、基本使用3.1、消费消息3.2、单播和多播消息的实现 4、主题和分区4.…

大模型与数据分析:探索Text-to-SQL

当今大模型如此火热,作为一名数据同学,持续在关注LLM是如何应用在数据分析中的,也关注到很多公司推出了AI数智助手的产品,比如火山引擎数智平台VeDI—AI助手、 Kyligence Copilot AI数智助理、ThoughtSpot等,通过接入人…

Node.js的Event Loop:六个阶段详解

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

括号生成(回溯+剪枝)

22. 括号生成 - 力扣(LeetCode) 题目描述 数字 n 代表生成括号的对数,请你设计一个函数,用于能够生成所有可能的并且 有效的 括号组合。 样例输入 示例 1: 输入:n 3 输出:["((()))&q…

五年前端的面试之旅

哈喽我是树酱,最近整理了下前端面试相关的知识题库,借此分享给各位小伙伴,帮助小伙伴早日拿到钟意的offer! 前言 最近就业市场不景气,跟大环境较差也有关,确实给我们也会带来一定的挑战。在招聘网站投简历的…

数据仓库的发展历程

数据仓库的概念可以追溯到20世纪60年代,但真正形成理论并被企业广泛应用还需要一个较长的发展过程。大致可以分为以下几个阶段: 决策支持系统(DSS)时期(1960s-1970s) 这一时期,随着管理信息系统(MIS)和电子计算机的兴起,企业开始尝试构建面向决策的数据处理系统。最初的决策支…

python批量转化pdf图片为jpg图片

1.把pdf图片批量转为jpg;需要注意的是,需要先安装poppler这个软件,具体安装教程放在下面代码中了 2.代码 #poppler安装教程参考:https://blog.csdn.net/wy01415/article/details/110257130 #windows上poppler下载链接&#xff1a…

从零开始机器学习(机器学习 监督学习之线性回归 损失函数及可视化 梯度下降 线性回归的平方误差损失函数 lab实验)

文章目录 机器学习定义监督学习之线性回归损失函数及可视化梯度下降线性回归的平方误差损失函数lab实验 机器学习定义 机器学习就是机器通过不断训练数据集从逐渐知道正确的结果 机器学习包括监督学习和非监督学习 监督学习:需要输入数据和结果数据来不断训练学习…

Java-常见面试题收集(八)

十五 JDBC 1 JDBC 访问数据库的基本步骤 加载驱动,通过 DriverManager 对象获取连接对象 Connection,通过连接对象获取会话,通过会话进行数据的增删改查封装对象,关闭资源 2 PreparedStatement 和 Statement 的区别 PreparedSta…

linux0.11中jmpi 0,8解析

系统在执行该行代码时已经为保护模式, jmpi 0,8会将段选择子(selector)载入cs段寄存器,并计算出逻辑地址。 段选择子的结构如下: 段选择子包括三部分:描述符索引(index)、TI、请求特权级(RPL)。…

SpringMVC常见面试题

1:Spring mvc执行流程 回答: 版本1:视图版本,jsp 用户发送出请求到前端控制器DispatcherServletDispatcherServlet收到请求调用HandlerMapping(处理映射器)HandlerMapping找到具体的处理器,生成处理器对象及处理器拦…

ajax的优缺点有哪些?

我们先来介绍一下什么是ajax: 对于ajax的理解,ajax是一种使用现有技术集合技术内容包括: HTML或XHTML、CSS、 JavaScript、DOM、XML、 XSLT, 以及最重要的XMLHttpRequest。 用于浏览器与服务器之间使用异步数据传输(HTTP请求),做…

二十四种设计模式与六大设计原则(一):【策略模式、代理模式、单例模式、多例模式、工厂方法模式、抽象工厂模式】的定义、举例说明、核心思想、适用场景和优缺点

目录 策略模式【Strategy Pattern】 定义 举例说明 核心思想 适用场景 优缺点 代理模式【Proxy Pattern】 定义 举例说明 核心思想 适用场景 优缺点 单例模式【Singleton Pattern】 定义 举例说明 核心思想 适用场景 优缺点 多例模式【Multition Pattern】…

C# 微软官方学习文档

链接:https://learn.microsoft.com/zh-cn/dotnet/csharp/ 在C#的学习过程中,我们可以参考微软官方的学习文档。它是一个免费的学习平台,提供了丰富的C#学习路径和教程(如下图),对我们入门到高级应用开发都…

PhpWord导入试题

规定word导入格式 1、[单选题][2024][一般]题目1 A.选项1 B.选项2 C.选项3 D.选项4 答案:D 试题图片(上传多媒体图片): 分数:2 答案解析: 2、[多选题][2024][困难]题目2 A.选项1 B.选项2 C.选项3 D.选项4 E…

专升本-人工智能(AI)

人工智能(AI): 什么是人工智能:(总结:感知,获取,得出(结论,执行)) 运用数理逻辑和计算机成果,提供关于形式化计算和处理…

Math常用方法,什么是math?

首先我们先来介绍一下什么是math? Math是一个内置对象,具有数学常数和函数的属性和方法,不是一个函数对象, 数学是一个内置对象,具有数学常数和函数的属性和方法,不是一个函数对象Math适用于Number类型&…